МОВС Трансформеры (ММОВС23, 5 модуль) — различия между версиями

Версия 16:43, 30 августа 2024

Содержание

1 О курсе
2 Контакты
3 Материалы курса (базовая группа)
4 Программа
- 4.1 Записи консультаций
5 Формула оценивания
6 Распределительный тест
7 Домашние задания
8 Литература

О курсе

Курс читается для студентов 2 курса магистратуры "Машинное обучение и высоконагруженные системы" в 1 модуле 2024/2025 учебного года (5 модуль).

Разберём основные вехи развития трансформеров и механизмы их функционирования, рассмотрим разные концепции задач, решаемых с помощью трансформерных моделей, отдельно остановимся на предлагаемых в разное время модификациях «ванильной» архитектуры, сфокусируемся на decoder-only вариации вообще и современных LLM в частности.

Время занятий: TBD

Контакты

Чат курса в TG: TBD

Преподаватель: Валерий Терновский

Ассистент	Telegram
Карагодин Никита	@Einstein_30
Александр Вишняков	@BedTed
Максим Думенков	@maxodum
Михаил Дуженко	@gogoggogog
Александра Ковалева	@ak0va
Марат Мельгизин	@v_oxel
Стас Ивашков	@ps1va

Материалы курса (базовая группа)

Ссылка на плейлист курса на YouTube: TBD

Ссылка на GitHub с материалами курса: TBD

Программа

1. The Transformer — «ванильная» архитектура, механизм внимания (attention), мотивация и импликации. 2. Решение Sequence-to-sequence (seq2seq) задач с помощью трансформеров: машинный перевод, QA, диалоговые модели. ДЗ 3. Энкодеры — Masked Language Modeling, BERT и его наиболее удачные модификации. решение NLU-задач с помощью трансформеров. 4. Декодеры — causal language modeling, авторегрессионная генерация, GPT-архитектура. ДЗ сдача 5. Pretraining — разбор этапа с точки зрения данных, функций потерь, валидации для трёх типов трансформеров (энкодеры, энкодер-декодеры, декодеры). Проект 6. Post-Training: SFT, RLHF, DPO — разбор этапа, бенчмарки и оценивание моделей. 7. Cutting-edge transformers research: модификации attention, эффективность обучения etc., разбор статей. 8. Защита проектов, обсуждение

Занятие	Тема	Дата	Ссылки
1	...	?.09.24
2	...	?.09.24

@@ Строка 37: / Строка 37: @@
 Ссылка на GitHub с материалами курса: TBD
+==Программа==
+. The Transformer — «ванильная» архитектура, механизм внимания (attention), мотивация и импликации.
+. Решение Sequence-to-sequence (seq2seq) задач с помощью трансформеров: машинный перевод, QA, диалоговые модели. ДЗ
+. Энкодеры — Masked Language Modeling, BERT и его наиболее удачные модификации. решение NLU-задач с помощью трансформеров.
+. Декодеры — causal language modeling, авторегрессионная генерация, GPT-архитектура. ДЗ сдача
+. Pretraining — разбор этапа с точки зрения данных, функций потерь, валидации для трёх типов трансформеров (энкодеры, энкодер-декодеры, декодеры). Проект
+. Post-Training: SFT, RLHF, DPO — разбор этапа, бенчмарки и оценивание моделей.
+. Cutting-edge transformers research: модификации attention, эффективность обучения etc., разбор статей.
+. Защита проектов, обсуждение
@@ Строка 44: / Строка 54: @@
 |-
 | style="background:#eaecf0;" | '''1'''  ||  ...
- || ?.09.24 ||
-|-
-| style="background:#eaecf0;" | '''2'''  ||  ...
- || ?.09.24 ||
-|-
-|}
-==Материалы курса ==
-Ссылка на плейлист курса на YouTube: TBD
-Ссылка на GitHub с материалами курса: TBD
-{| class="wikitable"
-|-
-! Занятие !! Тема !! Дата !! Ссылки
-|-
-| style="background:#eaecf0;" | '''1'''  ||  ...
   || ?.09.24 ||
 |-

МОВС Трансформеры (ММОВС23, 5 модуль) — различия между версиями

Версия 16:43, 30 августа 2024

Содержание

О курсе

Контакты

Материалы курса (базовая группа)

Программа

Записи консультаций

Формула оценивания

Распределительный тест

Домашние задания

Литература

Навигация

Персональные инструменты

Пространства имён

Варианты

Просмотры

Действия

Поиск

Навигация

Инструменты