Автоматическая обработка текста 24/25 (МОВС23) — различия между версиями
м (add syllabus) |
м (alpha version) |
||
| Строка 65: | Строка 65: | ||
==Формула оценивания== | ==Формула оценивания== | ||
| − | + | === При участии в устном экзамене === | |
| + | Оценка = 0.3*О<sub>Устный экзамен</sub> + 0.7*О<sub>ДЗ</sub> | ||
| + | |||
| + | === При отказе от устного экзамене === | ||
| + | |||
| + | Оценка = 1.0*О<sub>ДЗ</sub> | ||
== Домашние задания == | == Домашние задания == | ||
| − | + | ||
| − | # | + | '''После выдачи домашнего задания студентам предоставляется 2 (две) недели на выполнение'''. |
| − | # | + | |
| − | # | + | '''Каждый день просрочки штрафуется 1 баллом от максимальной оценки за соответствующее задание.''' |
| + | |||
| + | === Main Track === | ||
| + | # Обучение эмбеддингов с помощью библиотеки fasttext, реализация реального движка поиска эмбеддинга-ответа по запросу в векторной БД <br /> - Выдаётся на неделе 1 <br /> - Весит 30% от итога | ||
| + | # Тонкая настройка (fine-tuning) BERT на собственных данных <br /> - Выдаётся на неделе 4 <br /> - Весит 20% от итога | ||
| + | # Тонкая настройка LLM (LLAMA 3 8b) с помощью PEFT <br /> - Выдаётся на неделе 5 <br /> - Весит 20% от итога | ||
| + | |||
| + | === Optional Track === | ||
| + | * Тонкая настройка собственной модели с использованием библиотеки TRL <br /> - Выдаётся на неделе 6 <br /> - Весит 15% от итога | ||
| + | * Реализация Round-to-Nearest (RTN), Generalized Post-Training Quantization (GPTQ) <br /> - Выдаётся на неделе 7 <br /> - Весит 15% от итога | ||
| + | |||
| + | == Устный экзамен == | ||
| + | |||
| + | Программой курса предусмотрен устный экзамен, в рамках которого студентам будет предложено тянуть случайный билет с вопросом по пройденному материалу. | ||
| + | |||
| + | == Автоматы == | ||
| + | На курсе предусмотрены автоматы: | ||
| + | Если оценка студента за блок “домашние задания” ≥ 4 и устраивает студента, ее можно зачесть в виде автомата. | ||
== Литература == | == Литература == | ||
Версия 12:09, 8 ноября 2024
Содержание
О курсе
NLP — это область искусственного интеллекта, направленная на решение задач, связанных с обработкой человеческого языка, таких как извлечение информации, машинный перевод, автоматическое суммирование и диалоговые системы. За последние годы мы увидели значительный прогресс благодаря статистическому и глубокому обучению. Демонстрация возможностей современных диалоговых систем по типу ChatGPT от OpenAI позволила нам переосмыслить перспективы NLP в повседневной жизни, что привлекло к области внимание как со стороны исследователей и инженеров, так и институциональных инвесторов, готовых финансировать бурный рост отрасли.
Данный курс ставит перед собой следующие цели:
- познакомить слушателя с ключевыми направлениями современного развития области, сформировать понимание запросов, с которыми сталкиваются инженеры и исследователи в повседневной работе.
- развить понимание фундаментальных концепций, необходимых для самостоятельного решения задач как прикладного, так и исследовательского характера.
- познакомить слушателя с инструментами, необходимыми для решения прикладных задач.
Занятия проводятся в Zoom по четвергам в 19:40
Курс основан на материалах Школы Анализа Данных Яндекса (ШАД), CS224n by Stanford, а также личном опыте автора. Курс приоритезирует понимание слушателями пространства существующих на сегодня в отрасли задач и умение их решать над полнотой освещения исторически важных, однако на текущий день устаревших концепций
Контакты
Чат курса в TG: chat link
Преподаватель: Хажгериев Мурат Анзорович (@greedisneutral)
| Ассистент | Контакты |
|---|---|
| Соня-Аня Никифорова | @sonya_leaf |
| Стас Ивашков | @ps1va |
| Маша Харченко | @mister_autocrat |
| Савелий Прохоров | @Savely_Prokhorov |
Материалы курса
Ссылка на плейлист курса на YouTube: YouTube-playlist
Ссылка на GitHub с материалами курса: GitHub repository
| Занятие | Тема | Дата | Материалы для самоподготовки к семинарам | Дополнительные материалы |
|---|---|---|---|---|
| 1 Запись | Слайды Карта задач и методов NLP, эмбеддинги слов (word embeddings) | 06.11.24 (Ср.) | ||
| 2 Запись | Ноутбук Классификация текста | 14.11.24 (Чт.) | ||
| 3 Запись | Ноутбук Seq2seq, Трансформер и механим внимания | 21.11.24 (Чт.) | ||
| 4 Запись | Ноутбук Transfer learning: BERT, ELMO, GPT | 28.11.24 (Чт.) | ||
| 5 Запись | Ноутбук Обучение Больших языковых моделей (Large Language Models): Обучение с нуля vs Тонкая настройка (finetuning) | 05.12.24 (Чт.) | ||
| 6 Запись | Ноутбук Reinforcement Learning From Human Feedback (RLHF), Direct Preference Optimization (DPO) | 12.12.24 (Чт.) | ||
| 7 Запись | Ноутбук Практические подходы для эффективного обучения и развертывания LLM | 19.12.24 (Чт.) | ||
| 8 Запись | Ноутбук Retrieval-Augmented (RAG) LLM | ...<date>... |
Записи консультаций
Формула оценивания
При участии в устном экзамене
Оценка = 0.3*ОУстный экзамен + 0.7*ОДЗ
При отказе от устного экзамене
Оценка = 1.0*ОДЗ
Домашние задания
После выдачи домашнего задания студентам предоставляется 2 (две) недели на выполнение.
Каждый день просрочки штрафуется 1 баллом от максимальной оценки за соответствующее задание.
Main Track
- Обучение эмбеддингов с помощью библиотеки fasttext, реализация реального движка поиска эмбеддинга-ответа по запросу в векторной БД
- Выдаётся на неделе 1
- Весит 30% от итога - Тонкая настройка (fine-tuning) BERT на собственных данных
- Выдаётся на неделе 4
- Весит 20% от итога - Тонкая настройка LLM (LLAMA 3 8b) с помощью PEFT
- Выдаётся на неделе 5
- Весит 20% от итога
Optional Track
- Тонкая настройка собственной модели с использованием библиотеки TRL
- Выдаётся на неделе 6
- Весит 15% от итога - Реализация Round-to-Nearest (RTN), Generalized Post-Training Quantization (GPTQ)
- Выдаётся на неделе 7
- Весит 15% от итога
Устный экзамен
Программой курса предусмотрен устный экзамен, в рамках которого студентам будет предложено тянуть случайный билет с вопросом по пройденному материалу.
Автоматы
На курсе предусмотрены автоматы: Если оценка студента за блок “домашние задания” ≥ 4 и устраивает студента, ее можно зачесть в виде автомата.