МОВС Трансформеры (ММОВС23, 5 модуль) — различия между версиями
Murrcha (обсуждение | вклад) |
Murrcha (обсуждение | вклад) |
||
| (не показано 8 промежуточных версии этого же участника) | |||
| Строка 1: | Строка 1: | ||
==О курсе== | ==О курсе== | ||
| − | Курс читается для студентов | + | Курс читается для студентов 2 курса магистратуры "Машинное обучение и высоконагруженные системы" в 1 модуле 2024/2025 учебного года (5 модуль). |
| + | |||
| + | Разберём основные вехи развития трансформеров и механизмы их функционирования, рассмотрим разные концепции задач, решаемых с помощью трансформерных моделей, отдельно остановимся на предлагаемых в разное время модификациях «ванильной» архитектуры, сфокусируемся на decoder-only вариации вообще и современных LLM в частности. | ||
Время занятий: TBD | Время занятий: TBD | ||
==Контакты== | ==Контакты== | ||
| − | |||
| − | |||
Преподаватель: Валерий Терновский | Преподаватель: Валерий Терновский | ||
| Строка 15: | Строка 15: | ||
! Ассистент !! Telegram | ! Ассистент !! Telegram | ||
|- | |- | ||
| − | | style="background:#eaecf0;" | | + | | style="background:#eaecf0;" | Григорий Кузнецов || @growa |
|- | |- | ||
| − | | style="background:#eaecf0;" | | + | | style="background:#eaecf0;" | Даниил Охотин || @danokil |
| − | + | ||
| − | + | ||
| − | + | ||
| − | + | ||
| − | + | ||
| − | + | ||
| − | + | ||
| − | + | ||
| − | + | ||
| − | + | ||
|} | |} | ||
| − | == | + | ==Программа== |
| − | + | ||
| − | + | 1. The Transformer — «ванильная» архитектура, механизм внимания (attention), мотивация и импликации. | |
| + | 2. Решение Sequence-to-sequence (seq2seq) задач с помощью трансформеров: машинный перевод, QA, диалоговые модели. ДЗ | ||
| + | 3. Энкодеры — Masked Language Modeling, BERT и его наиболее удачные модификации. решение NLU-задач с помощью трансформеров. | ||
| − | + | 4. Декодеры — causal language modeling, авторегрессионная генерация, GPT-архитектура. ДЗ сдача | |
| − | + | ||
| − | + | 5. Pretraining — разбор этапа с точки зрения данных, функций потерь, валидации для трёх типов трансформеров (энкодеры, энкодер-декодеры, декодеры). Проект | |
| − | + | ||
| − | + | 6. Post-Training: SFT, RLHF, DPO — разбор этапа, бенчмарки и оценивание моделей. | |
| − | + | ||
| − | + | 7. Cutting-edge transformers research: модификации attention, эффективность обучения etc., разбор статей. | |
| − | + | ||
| − | + | 8. Защита проектов, обсуждение | |
| − | + | ||
| − | + | ||
| − | ==Материалы курса == | + | ==Материалы курса== |
Ссылка на плейлист курса на YouTube: TBD | Ссылка на плейлист курса на YouTube: TBD | ||
| Строка 59: | Строка 48: | ||
! Занятие !! Тема !! Дата !! Ссылки | ! Занятие !! Тема !! Дата !! Ссылки | ||
|- | |- | ||
| − | | style="background:#eaecf0;" | '''1''' || ... | + | | style="background:#eaecf0;" | '''1''' || ... |
|| ?.09.24 || | || ?.09.24 || | ||
|- | |- | ||
| Строка 71: | Строка 60: | ||
==Формула оценивания== | ==Формула оценивания== | ||
| − | Оценка = 0.3*О<sub> | + | Оценка = 0.3*О<sub>ДЗ</sub> +0.7*О<sub>Проект</sub> |
| − | + | ||
| − | + | ||
== Домашние задания == | == Домашние задания == | ||
| + | 1. «Лабораторный мини-проект» на модификацию стандартного пайплайна обучения causal decoder — внедряем (как вариант) PrefixLM в стандартный код huggingface, настраиваем валидацию, делаем выводы. | ||
| + | |||
| + | 2. Проект — делимся на мини-группы, берём одну из задач/предлагаем свою заранее (список задач будет дан позднее), строим: | ||
| + | * базовый пайплайн решения на open-source моделях | ||
| + | * пайплайн SFT/RLHF на открытых данных | ||
| + | * формулируем исследовательские гипотезы, готовим кодовую базу для их запуска и проверки (обучать или нет будет зависеть от гипотез). | ||
| + | |||
| + | Цель проекта — получить представление о работе R&D-команды в условиях, приближенных к реальным, разобраться в нюансах построения исследовательских пайплайнов в ML-проектах, научиться формировать roadmap проекта и демонстрировать промежуточные результаты. | ||
== Литература == | == Литература == | ||
Текущая версия на 12:23, 4 сентября 2024
Содержание
О курсе
Курс читается для студентов 2 курса магистратуры "Машинное обучение и высоконагруженные системы" в 1 модуле 2024/2025 учебного года (5 модуль).
Разберём основные вехи развития трансформеров и механизмы их функционирования, рассмотрим разные концепции задач, решаемых с помощью трансформерных моделей, отдельно остановимся на предлагаемых в разное время модификациях «ванильной» архитектуры, сфокусируемся на decoder-only вариации вообще и современных LLM в частности.
Время занятий: TBD
Контакты
Преподаватель: Валерий Терновский
| Ассистент | Telegram |
|---|---|
| Григорий Кузнецов | @growa |
| Даниил Охотин | @danokil |
Программа
1. The Transformer — «ванильная» архитектура, механизм внимания (attention), мотивация и импликации.
2. Решение Sequence-to-sequence (seq2seq) задач с помощью трансформеров: машинный перевод, QA, диалоговые модели. ДЗ
3. Энкодеры — Masked Language Modeling, BERT и его наиболее удачные модификации. решение NLU-задач с помощью трансформеров.
4. Декодеры — causal language modeling, авторегрессионная генерация, GPT-архитектура. ДЗ сдача
5. Pretraining — разбор этапа с точки зрения данных, функций потерь, валидации для трёх типов трансформеров (энкодеры, энкодер-декодеры, декодеры). Проект
6. Post-Training: SFT, RLHF, DPO — разбор этапа, бенчмарки и оценивание моделей.
7. Cutting-edge transformers research: модификации attention, эффективность обучения etc., разбор статей.
8. Защита проектов, обсуждение
Материалы курса
Ссылка на плейлист курса на YouTube: TBD
Ссылка на GitHub с материалами курса: TBD
| Занятие | Тема | Дата | Ссылки |
|---|---|---|---|
| 1 | ... | ?.09.24 | |
| 2 | ... | ?.09.24 |
Записи консультаций
Формула оценивания
Оценка = 0.3*ОДЗ +0.7*ОПроект
Домашние задания
1. «Лабораторный мини-проект» на модификацию стандартного пайплайна обучения causal decoder — внедряем (как вариант) PrefixLM в стандартный код huggingface, настраиваем валидацию, делаем выводы.
2. Проект — делимся на мини-группы, берём одну из задач/предлагаем свою заранее (список задач будет дан позднее), строим:
- базовый пайплайн решения на open-source моделях
- пайплайн SFT/RLHF на открытых данных
- формулируем исследовательские гипотезы, готовим кодовую базу для их запуска и проверки (обучать или нет будет зависеть от гипотез).
Цель проекта — получить представление о работе R&D-команды в условиях, приближенных к реальным, разобраться в нюансах построения исследовательских пайплайнов в ML-проектах, научиться формировать roadmap проекта и демонстрировать промежуточные результаты.