МОВС Трансформеры (ММОВС23, 5 модуль) — различия между версиями
Murrcha (обсуждение | вклад) (Новая страница: «...») |
Murrcha (обсуждение | вклад) |
||
| Строка 1: | Строка 1: | ||
| − | ... | + | О курсе |
| + | Разберём основные вехи развития трансформеров и механизмы их функционирования, рассмотрим разные концепции задач, решаемых с помощью трансформерных моделей, отдельно остановимся на предлагаемых в разное время модификациях «ванильной» архитектуры, сфокусируемся на decoder-only вариации вообще и современных LLM в частности. | ||
| + | |||
| + | Программа: | ||
| + | 1. The Transformer — «ванильная» архитектура, механизм внимания (attention), мотивация и импликации. | ||
| + | 2. Решение Sequence-to-sequence (seq2seq) задач с помощью трансформеров: машинный перевод, QA, диалоговые модели. | ||
| + | ДЗ | ||
| + | 3. Энкодеры — Masked Language Modeling, BERT и его наиболее удачные модификации. решение NLU-задач с помощью трансформеров. | ||
| + | 4. Декодеры — causal language modeling, авторегрессионная генерация, GPT-архитектура. | ||
| + | ДЗ сдача | ||
| + | 5. Pretraining — разбор этапа с точки зрения данных, функций потерь, валидации для трёх типов трансформеров (энкодеры, энкодер-декодеры, декодеры). | ||
| + | Проект | ||
| + | 6. Post-Training: SFT, RLHF, DPO — разбор этапа, бенчмарки и оценивание моделей. | ||
| + | 7. Cutting-edge transformers research: модификации attention, эффективность обучения etc., разбор статей. | ||
| + | 8. Защита проектов, обсуждение | ||
| + | |||
| + | Формула оценивания | ||
| + | Total_score = 0.3*домашка + 0.7*проект | ||
| + | Домашние задания | ||
| + | «Лабораторный мини-проект» на модификацию стандартного пайплайна обучения causal decoder — внедряем (как вариант) PrefixLM в стандартный код huggingface, настраиваем валидацию, делаем выводы. | ||
| + | Проект — делимся на мини-группы, берём одну из задач/предлагаем свою заранее (список задач будет дан позднее), строим: | ||
| + | базовый пайплайн решения на open-source моделях | ||
| + | пайплайн SFT/RLHF на открытых данных | ||
| + | формулируем исследовательские гипотезы, готовим кодовую базу для их запуска и проверки (обучать или нет будет зависеть от гипотез). | ||
| + | Цель проекта — получить представление о работе R&D-команды в условиях, приближенных к реальным, разобраться в нюансах построения исследовательских пайплайнов в ML-проектах, научиться формировать roadmap проекта и демонстрировать промежуточные результаты. | ||
Версия 16:31, 30 августа 2024
О курсе Разберём основные вехи развития трансформеров и механизмы их функционирования, рассмотрим разные концепции задач, решаемых с помощью трансформерных моделей, отдельно остановимся на предлагаемых в разное время модификациях «ванильной» архитектуры, сфокусируемся на decoder-only вариации вообще и современных LLM в частности.
Программа: 1. The Transformer — «ванильная» архитектура, механизм внимания (attention), мотивация и импликации. 2. Решение Sequence-to-sequence (seq2seq) задач с помощью трансформеров: машинный перевод, QA, диалоговые модели.
ДЗ
3. Энкодеры — Masked Language Modeling, BERT и его наиболее удачные модификации. решение NLU-задач с помощью трансформеров. 4. Декодеры — causal language modeling, авторегрессионная генерация, GPT-архитектура.
ДЗ сдача
5. Pretraining — разбор этапа с точки зрения данных, функций потерь, валидации для трёх типов трансформеров (энкодеры, энкодер-декодеры, декодеры).
Проект
6. Post-Training: SFT, RLHF, DPO — разбор этапа, бенчмарки и оценивание моделей. 7. Cutting-edge transformers research: модификации attention, эффективность обучения etc., разбор статей. 8. Защита проектов, обсуждение
Формула оценивания Total_score = 0.3*домашка + 0.7*проект Домашние задания «Лабораторный мини-проект» на модификацию стандартного пайплайна обучения causal decoder — внедряем (как вариант) PrefixLM в стандартный код huggingface, настраиваем валидацию, делаем выводы. Проект — делимся на мини-группы, берём одну из задач/предлагаем свою заранее (список задач будет дан позднее), строим: базовый пайплайн решения на open-source моделях пайплайн SFT/RLHF на открытых данных формулируем исследовательские гипотезы, готовим кодовую базу для их запуска и проверки (обучать или нет будет зависеть от гипотез). Цель проекта — получить представление о работе R&D-команды в условиях, приближенных к реальным, разобраться в нюансах построения исследовательских пайплайнов в ML-проектах, научиться формировать roadmap проекта и демонстрировать промежуточные результаты.