МОВС Трансформеры (ММОВС23, 5 модуль) — различия между версиями

Материал из Wiki - Факультет компьютерных наук
Перейти к: навигация, поиск
Строка 37: Строка 37:
 
Ссылка на GitHub с материалами курса: TBD
 
Ссылка на GitHub с материалами курса: TBD
  
 +
==Программа==
 +
 +
1. The Transformer — «ванильная» архитектура, механизм внимания (attention), мотивация и импликации.
 +
2. Решение Sequence-to-sequence (seq2seq) задач с помощью трансформеров: машинный перевод, QA, диалоговые модели. ДЗ
 +
3. Энкодеры — Masked Language Modeling, BERT и его наиболее удачные модификации. решение NLU-задач с помощью трансформеров.
 +
4. Декодеры — causal language modeling, авторегрессионная генерация, GPT-архитектура. ДЗ сдача
 +
5. Pretraining — разбор этапа с точки зрения данных, функций потерь, валидации для трёх типов трансформеров (энкодеры, энкодер-декодеры, декодеры). Проект
 +
6. Post-Training: SFT, RLHF, DPO — разбор этапа, бенчмарки и оценивание моделей.
 +
7. Cutting-edge transformers research: модификации attention, эффективность обучения etc., разбор статей.
 +
8. Защита проектов, обсуждение
  
  
Строка 44: Строка 54:
 
|-
 
|-
 
| style="background:#eaecf0;" | '''1'''  ||  ...  
 
| style="background:#eaecf0;" | '''1'''  ||  ...  
|| ?.09.24 ||
 
|-
 
| style="background:#eaecf0;" | '''2'''  ||  ...
 
|| ?.09.24 ||
 
|-
 
|}
 
 
==Материалы курса ==
 
Ссылка на плейлист курса на YouTube: TBD
 
 
Ссылка на GitHub с материалами курса: TBD
 
 
 
{| class="wikitable"
 
|-
 
! Занятие !! Тема !! Дата !! Ссылки
 
|-
 
| style="background:#eaecf0;" | '''1'''  ||  ...
 
 
  || ?.09.24 ||
 
  || ?.09.24 ||
 
|-
 
|-

Версия 16:43, 30 августа 2024

О курсе

Курс читается для студентов 2 курса магистратуры "Машинное обучение и высоконагруженные системы" в 1 модуле 2024/2025 учебного года (5 модуль).

Разберём основные вехи развития трансформеров и механизмы их функционирования, рассмотрим разные концепции задач, решаемых с помощью трансформерных моделей, отдельно остановимся на предлагаемых в разное время модификациях «ванильной» архитектуры, сфокусируемся на decoder-only вариации вообще и современных LLM в частности.

Время занятий: TBD

Контакты

Чат курса в TG: TBD

Преподаватель: Валерий Терновский

Ассистент Telegram
Карагодин Никита @Einstein_30
Александр Вишняков @BedTed
Максим Думенков @maxodum
Михаил Дуженко @gogoggogog
Александра Ковалева @ak0va
Марат Мельгизин @v_oxel
Стас Ивашков @ps1va

Материалы курса (базовая группа)

Ссылка на плейлист курса на YouTube: TBD

Ссылка на GitHub с материалами курса: TBD

Программа

1. The Transformer — «ванильная» архитектура, механизм внимания (attention), мотивация и импликации. 2. Решение Sequence-to-sequence (seq2seq) задач с помощью трансформеров: машинный перевод, QA, диалоговые модели. ДЗ 3. Энкодеры — Masked Language Modeling, BERT и его наиболее удачные модификации. решение NLU-задач с помощью трансформеров. 4. Декодеры — causal language modeling, авторегрессионная генерация, GPT-архитектура. ДЗ сдача 5. Pretraining — разбор этапа с точки зрения данных, функций потерь, валидации для трёх типов трансформеров (энкодеры, энкодер-декодеры, декодеры). Проект 6. Post-Training: SFT, RLHF, DPO — разбор этапа, бенчмарки и оценивание моделей. 7. Cutting-edge transformers research: модификации attention, эффективность обучения etc., разбор статей. 8. Защита проектов, обсуждение


Занятие Тема Дата Ссылки
1 ...  ?.09.24
2 ...  ?.09.24

Записи консультаций

Формула оценивания

Оценка = 0.3*ОДЗ1 +0.3*ОДЗ2 + 0.3*ОДЗ3 +0.1*ОДЗ4

Распределительный тест

Домашние задания

Литература