МОВС Трансформеры (ММОВС23, 5 модуль) — различия между версиями
Murrcha (обсуждение | вклад) |
Murrcha (обсуждение | вклад) |
||
| Строка 37: | Строка 37: | ||
Ссылка на GitHub с материалами курса: TBD | Ссылка на GitHub с материалами курса: TBD | ||
| + | ==Программа== | ||
| + | |||
| + | 1. The Transformer — «ванильная» архитектура, механизм внимания (attention), мотивация и импликации. | ||
| + | 2. Решение Sequence-to-sequence (seq2seq) задач с помощью трансформеров: машинный перевод, QA, диалоговые модели. ДЗ | ||
| + | 3. Энкодеры — Masked Language Modeling, BERT и его наиболее удачные модификации. решение NLU-задач с помощью трансформеров. | ||
| + | 4. Декодеры — causal language modeling, авторегрессионная генерация, GPT-архитектура. ДЗ сдача | ||
| + | 5. Pretraining — разбор этапа с точки зрения данных, функций потерь, валидации для трёх типов трансформеров (энкодеры, энкодер-декодеры, декодеры). Проект | ||
| + | 6. Post-Training: SFT, RLHF, DPO — разбор этапа, бенчмарки и оценивание моделей. | ||
| + | 7. Cutting-edge transformers research: модификации attention, эффективность обучения etc., разбор статей. | ||
| + | 8. Защита проектов, обсуждение | ||
| Строка 44: | Строка 54: | ||
|- | |- | ||
| style="background:#eaecf0;" | '''1''' || ... | | style="background:#eaecf0;" | '''1''' || ... | ||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
|| ?.09.24 || | || ?.09.24 || | ||
|- | |- | ||
Версия 16:43, 30 августа 2024
Содержание
О курсе
Курс читается для студентов 2 курса магистратуры "Машинное обучение и высоконагруженные системы" в 1 модуле 2024/2025 учебного года (5 модуль).
Разберём основные вехи развития трансформеров и механизмы их функционирования, рассмотрим разные концепции задач, решаемых с помощью трансформерных моделей, отдельно остановимся на предлагаемых в разное время модификациях «ванильной» архитектуры, сфокусируемся на decoder-only вариации вообще и современных LLM в частности.
Время занятий: TBD
Контакты
Чат курса в TG: TBD
Преподаватель: Валерий Терновский
| Ассистент | Telegram |
|---|---|
| Карагодин Никита | @Einstein_30 |
| Александр Вишняков | @BedTed |
| Максим Думенков | @maxodum |
| Михаил Дуженко | @gogoggogog |
| Александра Ковалева | @ak0va |
| Марат Мельгизин | @v_oxel |
| Стас Ивашков | @ps1va |
Материалы курса (базовая группа)
Ссылка на плейлист курса на YouTube: TBD
Ссылка на GitHub с материалами курса: TBD
Программа
1. The Transformer — «ванильная» архитектура, механизм внимания (attention), мотивация и импликации. 2. Решение Sequence-to-sequence (seq2seq) задач с помощью трансформеров: машинный перевод, QA, диалоговые модели. ДЗ 3. Энкодеры — Masked Language Modeling, BERT и его наиболее удачные модификации. решение NLU-задач с помощью трансформеров. 4. Декодеры — causal language modeling, авторегрессионная генерация, GPT-архитектура. ДЗ сдача 5. Pretraining — разбор этапа с точки зрения данных, функций потерь, валидации для трёх типов трансформеров (энкодеры, энкодер-декодеры, декодеры). Проект 6. Post-Training: SFT, RLHF, DPO — разбор этапа, бенчмарки и оценивание моделей. 7. Cutting-edge transformers research: модификации attention, эффективность обучения etc., разбор статей. 8. Защита проектов, обсуждение
| Занятие | Тема | Дата | Ссылки |
|---|---|---|---|
| 1 | ... | ?.09.24 | |
| 2 | ... | ?.09.24 |
Записи консультаций
Формула оценивания
Оценка = 0.3*ОДЗ1 +0.3*ОДЗ2 + 0.3*ОДЗ3 +0.1*ОДЗ4