Автоматическая обработка текста 24/25 (МОВС23) — различия между версиями

Версия 12:09, 8 ноября 2024

Содержание

1 О курсе
2 Контакты
3 Материалы курса
- 3.1 Записи консультаций
4 Формула оценивания
- 4.1 При участии в устном экзамене
- 4.2 При отказе от устного экзамене
5 Домашние задания
- 5.1 Main Track
- 5.2 Optional Track
6 Устный экзамен
7 Автоматы
8 Литература

О курсе

NLP — это область искусственного интеллекта, направленная на решение задач, связанных с обработкой человеческого языка, таких как извлечение информации, машинный перевод, автоматическое суммирование и диалоговые системы. За последние годы мы увидели значительный прогресс благодаря статистическому и глубокому обучению. Демонстрация возможностей современных диалоговых систем по типу ChatGPT от OpenAI позволила нам переосмыслить перспективы NLP в повседневной жизни, что привлекло к области внимание как со стороны исследователей и инженеров, так и институциональных инвесторов, готовых финансировать бурный рост отрасли.

Данный курс ставит перед собой следующие цели:

познакомить слушателя с ключевыми направлениями современного развития области, сформировать понимание запросов, с которыми сталкиваются инженеры и исследователи в повседневной работе.

развить понимание фундаментальных концепций, необходимых для самостоятельного решения задач как прикладного, так и исследовательского характера.

познакомить слушателя с инструментами, необходимыми для решения прикладных задач.

Занятия проводятся в Zoom по четвергам в 19:40

Курс основан на материалах Школы Анализа Данных Яндекса (ШАД), CS224n by Stanford, а также личном опыте автора. Курс приоритезирует понимание слушателями пространства существующих на сегодня в отрасли задач и умение их решать над полнотой освещения исторически важных, однако на текущий день устаревших концепций

Контакты

Чат курса в TG: chat link

Преподаватель: Хажгериев Мурат Анзорович (@greedisneutral)

Ассистент	Контакты
Соня-Аня Никифорова	@sonya_leaf
Стас Ивашков	@ps1va
Маша Харченко	@mister_autocrat
Савелий Прохоров	@Savely_Prokhorov

Материалы курса

Ссылка на плейлист курса на YouTube: YouTube-playlist

Ссылка на GitHub с материалами курса: GitHub repository

Занятие	Тема	Дата
1 Запись	Слайды Карта задач и методов NLP, эмбеддинги слов (word embeddings)	06.11.24 (Ср.)
2 Запись	Ноутбук Классификация текста	14.11.24 (Чт.)
3 Запись	Ноутбук Seq2seq, Трансформер и механим внимания	21.11.24 (Чт.)
4 Запись	Ноутбук Transfer learning: BERT, ELMO, GPT	28.11.24 (Чт.)
5 Запись	Ноутбук Обучение Больших языковых моделей (Large Language Models): Обучение с нуля vs Тонкая настройка (finetuning)	05.12.24 (Чт.)
6 Запись	Ноутбук Reinforcement Learning From Human Feedback (RLHF), Direct Preference Optimization (DPO)	12.12.24 (Чт.)
7 Запись	Ноутбук Практические подходы для эффективного обучения и развертывания LLM	19.12.24 (Чт.)
8 Запись	Ноутбук Retrieval-Augmented (RAG) LLM	...<date>...

Записи консультаций

Формула оценивания

При участии в устном экзамене

Оценка = 0.3*О_{Устный экзамен} + 0.7*О_ДЗ

При отказе от устного экзамене

Оценка = 1.0*О_ДЗ

Домашние задания

После выдачи домашнего задания студентам предоставляется 2 (две) недели на выполнение.

Каждый день просрочки штрафуется 1 баллом от максимальной оценки за соответствующее задание.

Main Track

Обучение эмбеддингов с помощью библиотеки fasttext, реализация реального движка поиска эмбеддинга-ответа по запросу в векторной БД
- Выдаётся на неделе 1
- Весит 30% от итога
Тонкая настройка (fine-tuning) BERT на собственных данных
- Выдаётся на неделе 4
- Весит 20% от итога
Тонкая настройка LLM (LLAMA 3 8b) с помощью PEFT
- Выдаётся на неделе 5
- Весит 20% от итога

Optional Track

Тонкая настройка собственной модели с использованием библиотеки TRL
- Выдаётся на неделе 6
- Весит 15% от итога
Реализация Round-to-Nearest (RTN), Generalized Post-Training Quantization (GPTQ)
- Выдаётся на неделе 7
- Весит 15% от итога

Устный экзамен

Программой курса предусмотрен устный экзамен, в рамках которого студентам будет предложено тянуть случайный билет с вопросом по пройденному материалу.

Автоматы

На курсе предусмотрены автоматы: Если оценка студента за блок “домашние задания” ≥ 4 и устраивает студента, ее можно зачесть в виде автомата.

@@ Строка 65: / Строка 65: @@
 ==Формула оценивания==
-Оценка = ...<вес 1>...*О<sub>...<форма контроля 1>...</sub> + ...<вес 2>...*О<sub>...<форма контроля 2>...</sub> + ...<вес 3>...*О<sub>...<форма контроля 3>...</sub>
+=== При участии в устном экзамене ===
+Оценка = 0.3*О<sub>Устный экзамен</sub> + 0.7*О<sub>ДЗ</sub>
+=== При отказе от устного экзамене ===
+Оценка = 1.0*О<sub>ДЗ</sub>
 == Домашние задания ==
-#
-#
+'''После выдачи домашнего задания студентам предоставляется 2 (две) недели на выполнение'''.
-#
-#
+'''Каждый день просрочки штрафуется 1 баллом от максимальной оценки за соответствующее задание.'''
+=== Main Track ===
+# Обучение эмбеддингов с помощью библиотеки fasttext, реализация реального движка поиска эмбеддинга-ответа по запросу в векторной БД <br /> - Выдаётся на неделе 1 <br /> - Весит 30% от итога
+# Тонкая настройка (fine-tuning) BERT на собственных данных <br /> - Выдаётся на неделе 4 <br /> - Весит 20% от итога
+# Тонкая настройка LLM (LLAMA 3 8b) с помощью PEFT <br /> - Выдаётся на неделе 5 <br /> - Весит 20% от итога
+=== Optional Track ===
+* Тонкая настройка собственной модели с использованием библиотеки TRL <br /> - Выдаётся на неделе 6 <br /> - Весит 15% от итога
+* Реализация Round-to-Nearest (RTN), Generalized Post-Training Quantization (GPTQ) <br /> - Выдаётся на неделе 7 <br /> - Весит 15% от итога
+== Устный экзамен ==
+Программой курса предусмотрен устный экзамен, в рамках которого студентам будет предложено тянуть случайный билет с вопросом по пройденному материалу.
+== Автоматы ==
+На курсе предусмотрены автоматы:
+Если оценка студента за блок “домашние задания” ≥ 4 и устраивает студента, ее можно зачесть в виде автомата.
 == Литература ==

Автоматическая обработка текста 24/25 (МОВС23) — различия между версиями

Версия 12:09, 8 ноября 2024

Содержание

О курсе

Контакты

Материалы курса

Записи консультаций

Формула оценивания

При участии в устном экзамене

При отказе от устного экзамене

Домашние задания

Main Track

Optional Track

Устный экзамен

Автоматы

Литература

Навигация

Персональные инструменты

Пространства имён

Варианты

Просмотры

Действия

Поиск

Навигация

Инструменты