МОВС Трансформеры (ММОВС23, 5 модуль) — различия между версиями

Материал из Wiki - Факультет компьютерных наук
Перейти к: навигация, поиск
 
(не показано 9 промежуточных версии этого же участника)
Строка 1: Строка 1:
О курсе
+
==О курсе==
 +
 
 +
Курс читается для студентов 2 курса магистратуры "Машинное обучение и высоконагруженные системы" в 1 модуле 2024/2025 учебного года (5 модуль).
 +
 
 
Разберём основные вехи развития трансформеров и механизмы их функционирования, рассмотрим разные концепции задач, решаемых с помощью трансформерных моделей, отдельно остановимся на предлагаемых в разное время модификациях «ванильной» архитектуры, сфокусируемся на decoder-only вариации вообще и современных LLM в частности.
 
Разберём основные вехи развития трансформеров и механизмы их функционирования, рассмотрим разные концепции задач, решаемых с помощью трансформерных моделей, отдельно остановимся на предлагаемых в разное время модификациях «ванильной» архитектуры, сфокусируемся на decoder-only вариации вообще и современных LLM в частности.
 +
 +
Время занятий: TBD
 +
 +
==Контакты==
 +
 +
Преподаватель: Валерий Терновский
 +
 +
{| class="wikitable"
 +
|-
 +
! Ассистент !! Telegram
 +
|-
 +
| style="background:#eaecf0;" | Григорий Кузнецов || @growa
 +
|-
 +
| style="background:#eaecf0;" | Даниил Охотин || @danokil
 +
|}
 +
 +
==Программа==
  
Программа:
 
 
1. The Transformer — «ванильная» архитектура, механизм внимания (attention), мотивация и импликации.
 
1. The Transformer — «ванильная» архитектура, механизм внимания (attention), мотивация и импликации.
2. Решение Sequence-to-sequence (seq2seq) задач с помощью трансформеров: машинный перевод, QA, диалоговые модели.  
+
 
  ДЗ
+
2. Решение Sequence-to-sequence (seq2seq) задач с помощью трансформеров: машинный перевод, QA, диалоговые модели. ДЗ
 +
 
 
3. Энкодеры — Masked Language Modeling, BERT и его наиболее удачные модификации. решение NLU-задач с помощью трансформеров.
 
3. Энкодеры — Masked Language Modeling, BERT и его наиболее удачные модификации. решение NLU-задач с помощью трансформеров.
4. Декодеры — causal language modeling, авторегрессионная генерация, GPT-архитектура.
+
 
  ДЗ сдача
+
4. Декодеры — causal language modeling, авторегрессионная генерация, GPT-архитектура. ДЗ сдача
5. Pretraining — разбор этапа с точки зрения данных, функций потерь, валидации для трёх типов трансформеров (энкодеры, энкодер-декодеры, декодеры).
+
 
  Проект
+
5. Pretraining — разбор этапа с точки зрения данных, функций потерь, валидации для трёх типов трансформеров (энкодеры, энкодер-декодеры, декодеры). Проект
 +
 
 
6. Post-Training: SFT, RLHF, DPO — разбор этапа, бенчмарки и оценивание моделей.
 
6. Post-Training: SFT, RLHF, DPO — разбор этапа, бенчмарки и оценивание моделей.
 +
 
7. Cutting-edge transformers research: модификации attention, эффективность обучения etc., разбор статей.
 
7. Cutting-edge transformers research: модификации attention, эффективность обучения etc., разбор статей.
 +
 
8. Защита проектов, обсуждение
 
8. Защита проектов, обсуждение
  
Формула оценивания
+
==Материалы курса==
Total_score = 0.3*домашка + 0.7*проект
+
Ссылка на плейлист курса на YouTube: TBD
Домашние задания
+
 
«Лабораторный мини-проект» на модификацию стандартного пайплайна обучения causal decoder — внедряем (как вариант) PrefixLM в стандартный код huggingface, настраиваем валидацию, делаем выводы.  
+
Ссылка на GitHub с материалами курса: TBD
Проект — делимся на мини-группы, берём одну из задач/предлагаем свою заранее (список задач будет дан позднее), строим:
+
 
базовый пайплайн решения на open-source моделях
+
 
пайплайн SFT/RLHF на открытых данных
+
{| class="wikitable"
формулируем исследовательские гипотезы, готовим кодовую базу для их запуска и проверки (обучать или нет будет зависеть от гипотез).
+
|-
 +
! Занятие !! Тема !! Дата !! Ссылки
 +
|-
 +
| style="background:#eaecf0;" | '''1'''  ||  ...
 +
|| ?.09.24 ||
 +
|-
 +
| style="background:#eaecf0;" | '''2'''  ||  ...
 +
|| ?.09.24 ||
 +
|-
 +
|}
 +
 
 +
=== Записи консультаций ===
 +
 
 +
==Формула оценивания==
 +
 
 +
Оценка = 0.3*О<sub>ДЗ</sub> +0.7*О<sub>Проект</sub>
 +
 
 +
 
 +
== Домашние задания ==
 +
 
 +
1. «Лабораторный мини-проект» на модификацию стандартного пайплайна обучения causal decoder — внедряем (как вариант) PrefixLM в стандартный код huggingface, настраиваем валидацию, делаем выводы.  
 +
 
 +
2. Проект — делимся на мини-группы, берём одну из задач/предлагаем свою заранее (список задач будет дан позднее), строим:
 +
* базовый пайплайн решения на open-source моделях
 +
* пайплайн SFT/RLHF на открытых данных
 +
* формулируем исследовательские гипотезы, готовим кодовую базу для их запуска и проверки (обучать или нет будет зависеть от гипотез).
 +
 
 
Цель проекта — получить представление о работе R&D-команды в условиях, приближенных к реальным, разобраться в нюансах построения исследовательских пайплайнов в ML-проектах, научиться формировать roadmap проекта и демонстрировать промежуточные результаты.
 
Цель проекта — получить представление о работе R&D-команды в условиях, приближенных к реальным, разобраться в нюансах построения исследовательских пайплайнов в ML-проектах, научиться формировать roadmap проекта и демонстрировать промежуточные результаты.
 +
 +
== Литература ==

Текущая версия на 12:23, 4 сентября 2024

О курсе

Курс читается для студентов 2 курса магистратуры "Машинное обучение и высоконагруженные системы" в 1 модуле 2024/2025 учебного года (5 модуль).

Разберём основные вехи развития трансформеров и механизмы их функционирования, рассмотрим разные концепции задач, решаемых с помощью трансформерных моделей, отдельно остановимся на предлагаемых в разное время модификациях «ванильной» архитектуры, сфокусируемся на decoder-only вариации вообще и современных LLM в частности.

Время занятий: TBD

Контакты

Преподаватель: Валерий Терновский

Ассистент Telegram
Григорий Кузнецов @growa
Даниил Охотин @danokil

Программа

1. The Transformer — «ванильная» архитектура, механизм внимания (attention), мотивация и импликации.

2. Решение Sequence-to-sequence (seq2seq) задач с помощью трансформеров: машинный перевод, QA, диалоговые модели. ДЗ

3. Энкодеры — Masked Language Modeling, BERT и его наиболее удачные модификации. решение NLU-задач с помощью трансформеров.

4. Декодеры — causal language modeling, авторегрессионная генерация, GPT-архитектура. ДЗ сдача

5. Pretraining — разбор этапа с точки зрения данных, функций потерь, валидации для трёх типов трансформеров (энкодеры, энкодер-декодеры, декодеры). Проект

6. Post-Training: SFT, RLHF, DPO — разбор этапа, бенчмарки и оценивание моделей.

7. Cutting-edge transformers research: модификации attention, эффективность обучения etc., разбор статей.

8. Защита проектов, обсуждение

Материалы курса

Ссылка на плейлист курса на YouTube: TBD

Ссылка на GitHub с материалами курса: TBD


Занятие Тема Дата Ссылки
1 ...  ?.09.24
2 ...  ?.09.24

Записи консультаций

Формула оценивания

Оценка = 0.3*ОДЗ +0.7*ОПроект


Домашние задания

1. «Лабораторный мини-проект» на модификацию стандартного пайплайна обучения causal decoder — внедряем (как вариант) PrefixLM в стандартный код huggingface, настраиваем валидацию, делаем выводы.

2. Проект — делимся на мини-группы, берём одну из задач/предлагаем свою заранее (список задач будет дан позднее), строим:

  • базовый пайплайн решения на open-source моделях
  • пайплайн SFT/RLHF на открытых данных
  • формулируем исследовательские гипотезы, готовим кодовую базу для их запуска и проверки (обучать или нет будет зависеть от гипотез).

Цель проекта — получить представление о работе R&D-команды в условиях, приближенных к реальным, разобраться в нюансах построения исследовательских пайплайнов в ML-проектах, научиться формировать roadmap проекта и демонстрировать промежуточные результаты.

Литература