МОВС Трансформеры (ММОВС23, 5 модуль) — различия между версиями

Текущая версия на 12:23, 4 сентября 2024

Содержание

1 О курсе
2 Контакты
3 Программа
4 Материалы курса
- 4.1 Записи консультаций
5 Формула оценивания
6 Домашние задания
7 Литература

О курсе

Курс читается для студентов 2 курса магистратуры "Машинное обучение и высоконагруженные системы" в 1 модуле 2024/2025 учебного года (5 модуль).

Разберём основные вехи развития трансформеров и механизмы их функционирования, рассмотрим разные концепции задач, решаемых с помощью трансформерных моделей, отдельно остановимся на предлагаемых в разное время модификациях «ванильной» архитектуры, сфокусируемся на decoder-only вариации вообще и современных LLM в частности.

Время занятий: TBD

Контакты

Преподаватель: Валерий Терновский

Ассистент	Telegram
Григорий Кузнецов	@growa
Даниил Охотин	@danokil

Программа

1. The Transformer — «ванильная» архитектура, механизм внимания (attention), мотивация и импликации.

2. Решение Sequence-to-sequence (seq2seq) задач с помощью трансформеров: машинный перевод, QA, диалоговые модели. ДЗ

3. Энкодеры — Masked Language Modeling, BERT и его наиболее удачные модификации. решение NLU-задач с помощью трансформеров.

4. Декодеры — causal language modeling, авторегрессионная генерация, GPT-архитектура. ДЗ сдача

5. Pretraining — разбор этапа с точки зрения данных, функций потерь, валидации для трёх типов трансформеров (энкодеры, энкодер-декодеры, декодеры). Проект

6. Post-Training: SFT, RLHF, DPO — разбор этапа, бенчмарки и оценивание моделей.

7. Cutting-edge transformers research: модификации attention, эффективность обучения etc., разбор статей.

8. Защита проектов, обсуждение

Материалы курса

Ссылка на плейлист курса на YouTube: TBD

Ссылка на GitHub с материалами курса: TBD

Занятие	Тема	Дата	Ссылки
1	...	?.09.24
2	...	?.09.24

Записи консультаций

Формула оценивания

Оценка = 0.3*О_ДЗ +0.7*О_Проект

Домашние задания

1. «Лабораторный мини-проект» на модификацию стандартного пайплайна обучения causal decoder — внедряем (как вариант) PrefixLM в стандартный код huggingface, настраиваем валидацию, делаем выводы.

2. Проект — делимся на мини-группы, берём одну из задач/предлагаем свою заранее (список задач будет дан позднее), строим:

базовый пайплайн решения на open-source моделях
пайплайн SFT/RLHF на открытых данных
формулируем исследовательские гипотезы, готовим кодовую базу для их запуска и проверки (обучать или нет будет зависеть от гипотез).

Цель проекта — получить представление о работе R&D-команды в условиях, приближенных к реальным, разобраться в нюансах построения исследовательских пайплайнов в ML-проектах, научиться формировать roadmap проекта и демонстрировать промежуточные результаты.

@@ Строка 1: / Строка 1: @@
 ==О курсе==
-Курс читается для студентов 1 курса магистратуры "Искусственный интеллект" в 1 модуле 2024/2025 учебного года.
+Курс читается для студентов 2 курса магистратуры "Машинное обучение и высоконагруженные системы" в 1 модуле 2024/2025 учебного года (5 модуль).
+Разберём основные вехи развития трансформеров и механизмы их функционирования, рассмотрим разные концепции задач, решаемых с помощью трансформерных моделей, отдельно остановимся на предлагаемых в разное время модификациях «ванильной» архитектуры, сфокусируемся на decoder-only вариации вообще и современных LLM в частности.
 Время занятий: TBD
 ==Контакты==
-Чат курса в TG: TBD
 Преподаватель: Валерий Терновский
@@ Строка 15: / Строка 15: @@
 ! Ассистент !! Telegram
 |-
-| style="background:#eaecf0;" | Карагодин Никита || [https://t.me/Einstein_30 @Einstein_30]
+| style="background:#eaecf0;" | Григорий Кузнецов || @growa
 |-
-| style="background:#eaecf0;" | Александр Вишняков || [https://t.me/BedTed @BedTed]
+| style="background:#eaecf0;" | Даниил Охотин || @danokil
-|-
-| style="background:#eaecf0;" | Максим Думенков || [https://t.me/maxodum @maxodum]
-|-
-| style="background:#eaecf0;" | Михаил Дуженко || [https://t.me/gogoggogog @gogoggogog]
-|-
-| style="background:#eaecf0;" | Александра Ковалева || [https://t.me/ak0va @ak0va]
-|-
-| style="background:#eaecf0;" |  Марат Мельгизин || [https://t.me/v_oxel @v_oxel]
-|-
-| style="background:#eaecf0;" | Стас Ивашков || [https://t.me/ps1va @ps1va]
 |}
-==Материалы курса (базовая группа)==
+==Программа==
-Ссылка на плейлист курса на YouTube: TBD
-Ссылка на GitHub с материалами курса: TBD
+. The Transformer — «ванильная» архитектура, механизм внимания (attention), мотивация и импликации.
+. Решение Sequence-to-sequence (seq2seq) задач с помощью трансформеров: машинный перевод, QA, диалоговые модели. ДЗ
+. Энкодеры — Masked Language Modeling, BERT и его наиболее удачные модификации. решение NLU-задач с помощью трансформеров.
-{| class="wikitable"
+. Декодеры — causal language modeling, авторегрессионная генерация, GPT-архитектура. ДЗ сдача
-|-
-! Занятие !! Тема !! Дата !! Ссылки
+. Pretraining — разбор этапа с точки зрения данных, функций потерь, валидации для трёх типов трансформеров (энкодеры, энкодер-декодеры, декодеры). Проект
-|-
-| style="background:#eaecf0;" | '''1'''  ||  ...
+. Post-Training: SFT, RLHF, DPO — разбор этапа, бенчмарки и оценивание моделей.
- || ?.09.24 ||
-|-
+. Cutting-edge transformers research: модификации attention, эффективность обучения etc., разбор статей.
-| style="background:#eaecf0;" | '''2'''  ||  ...
- || ?.09.24 ||
+. Защита проектов, обсуждение
-|-
-|}
-==Материалы курса ==
+==Материалы курса==
 Ссылка на плейлист курса на YouTube: TBD
@@ Строка 59: / Строка 48: @@
 ! Занятие !! Тема !! Дата !! Ссылки
 |-
 | style="background:#eaecf0;" | '''1'''  ||  ...
   || ?.09.24 ||
 |-
@@ Строка 71: / Строка 60: @@
 ==Формула оценивания==
-Оценка = 0.3*О<sub>ДЗ1</sub> +0.3*О<sub>ДЗ2</sub> + 0.3*О<sub>ДЗ3</sub>  +0.1*О<sub>ДЗ4</sub>
+Оценка = 0.3*О<sub>ДЗ</sub> +0.7*О<sub>Проект</sub>
-== Распределительный тест ==
 == Домашние задания ==
+. «Лабораторный мини-проект» на модификацию стандартного пайплайна обучения causal decoder — внедряем (как вариант) PrefixLM в стандартный код huggingface, настраиваем валидацию, делаем выводы.
+. Проект — делимся на мини-группы, берём одну из задач/предлагаем свою заранее (список задач будет дан позднее), строим:
+* базовый пайплайн решения на open-source моделях
+* пайплайн SFT/RLHF на открытых данных
+* формулируем исследовательские гипотезы, готовим кодовую базу для их запуска и проверки (обучать или нет будет зависеть от гипотез).
+Цель проекта — получить представление о работе R&D-команды в условиях, приближенных к реальным, разобраться в нюансах построения исследовательских пайплайнов в ML-проектах, научиться формировать roadmap проекта и демонстрировать промежуточные результаты.
 == Литература ==

МОВС Трансформеры (ММОВС23, 5 модуль) — различия между версиями

Текущая версия на 12:23, 4 сентября 2024

Содержание

О курсе

Контакты

Программа

Материалы курса

Записи консультаций

Формула оценивания

Домашние задания

Литература

Навигация

Персональные инструменты

Пространства имён

Варианты

Просмотры

Действия

Поиск

Навигация

Инструменты