Автоматическая обработка текста 24/25 (МОВС23) — различия между версиями

Материал из Wiki - Факультет компьютерных наук
Перейти к: навигация, поиск
м (add syllabus)
м (alpha version)
Строка 65: Строка 65:
 
==Формула оценивания==
 
==Формула оценивания==
  
Оценка = ...<вес 1>...*О<sub>...<форма контроля 1>...</sub> + ...<вес 2>...*О<sub>...<форма контроля 2>...</sub> + ...<вес 3>...*О<sub>...<форма контроля 3>...</sub>
+
=== При участии в устном экзамене ===
  
 +
Оценка = 0.3*О<sub>Устный экзамен</sub> + 0.7*О<sub>ДЗ</sub>
 +
 +
=== При отказе от устного экзамене ===
 +
 +
Оценка = 1.0*О<sub>ДЗ</sub>
  
 
== Домашние задания ==
 
== Домашние задания ==
#
+
 
#  
+
'''После выдачи домашнего задания студентам предоставляется 2 (две) недели на выполнение'''.
#  
+
 
#  
+
'''Каждый день просрочки штрафуется 1 баллом от максимальной оценки за соответствующее задание.'''
 +
 
 +
=== Main Track ===
 +
# Обучение эмбеддингов с помощью библиотеки fasttext, реализация реального движка поиска эмбеддинга-ответа по запросу в векторной БД <br /> - Выдаётся на неделе 1 <br /> - Весит 30% от итога
 +
# Тонкая настройка (fine-tuning) BERT на собственных данных <br /> - Выдаётся на неделе 4 <br /> - Весит 20% от итога
 +
# Тонкая настройка LLM (LLAMA 3 8b) с помощью PEFT <br /> - Выдаётся на неделе 5 <br /> - Весит 20% от итога
 +
 
 +
=== Optional Track ===
 +
* Тонкая настройка собственной модели с использованием библиотеки TRL <br /> - Выдаётся на неделе 6 <br /> - Весит 15% от итога
 +
* Реализация Round-to-Nearest (RTN), Generalized Post-Training Quantization (GPTQ) <br /> - Выдаётся на неделе 7 <br /> - Весит 15% от итога
 +
 
 +
== Устный экзамен ==
 +
 
 +
Программой курса предусмотрен устный экзамен, в рамках которого студентам будет предложено тянуть случайный билет с вопросом по пройденному материалу.
 +
 
 +
== Автоматы ==
 +
На курсе предусмотрены автоматы:
 +
Если оценка студента за блок “домашние задания” ≥ 4 и устраивает студента, ее можно зачесть в виде автомата.
  
 
== Литература ==
 
== Литература ==

Версия 12:09, 8 ноября 2024

О курсе

NLP — это область искусственного интеллекта, направленная на решение задач, связанных с обработкой человеческого языка, таких как извлечение информации, машинный перевод, автоматическое суммирование и диалоговые системы. За последние годы мы увидели значительный прогресс благодаря статистическому и глубокому обучению. Демонстрация возможностей современных диалоговых систем по типу ChatGPT от OpenAI позволила нам переосмыслить перспективы NLP в повседневной жизни, что привлекло к области внимание как со стороны исследователей и инженеров, так и институциональных инвесторов, готовых финансировать бурный рост отрасли.

Данный курс ставит перед собой следующие цели:

  • познакомить слушателя с ключевыми направлениями современного развития области, сформировать понимание запросов, с которыми сталкиваются инженеры и исследователи в повседневной работе.
  • развить понимание фундаментальных концепций, необходимых для самостоятельного решения задач как прикладного, так и исследовательского характера.
  • познакомить слушателя с инструментами, необходимыми для решения прикладных задач.


Занятия проводятся в Zoom по четвергам в 19:40


Курс основан на материалах Школы Анализа Данных Яндекса (ШАД), CS224n by Stanford, а также личном опыте автора. Курс приоритезирует понимание слушателями пространства существующих на сегодня в отрасли задач и умение их решать над полнотой освещения исторически важных, однако на текущий день устаревших концепций

Контакты

Чат курса в TG: chat link

Преподаватель: Хажгериев Мурат Анзорович (@greedisneutral)

Ассистент Контакты
Соня-Аня Никифорова @sonya_leaf
Стас Ивашков @ps1va
Маша Харченко @mister_autocrat
Савелий Прохоров @Savely_Prokhorov

Материалы курса

Ссылка на плейлист курса на YouTube: YouTube-playlist

Ссылка на GitHub с материалами курса: GitHub repository

Занятие Тема Дата Материалы для самоподготовки к семинарам Дополнительные материалы
1 Запись Слайды Карта задач и методов NLP, эмбеддинги слов (word embeddings) 06.11.24 (Ср.)
2 Запись Ноутбук Классификация текста 14.11.24 (Чт.)
3 Запись Ноутбук Seq2seq, Трансформер и механим внимания 21.11.24 (Чт.)
4 Запись Ноутбук Transfer learning: BERT, ELMO, GPT 28.11.24 (Чт.)
5 Запись Ноутбук Обучение Больших языковых моделей (Large Language Models): Обучение с нуля vs Тонкая настройка (finetuning) 05.12.24 (Чт.)
6 Запись Ноутбук Reinforcement Learning From Human Feedback (RLHF), Direct Preference Optimization (DPO) 12.12.24 (Чт.)
7 Запись Ноутбук Практические подходы для эффективного обучения и развертывания LLM 19.12.24 (Чт.)
8 Запись Ноутбук Retrieval-Augmented (RAG) LLM ...<date>...

Записи консультаций

Формула оценивания

При участии в устном экзамене

Оценка = 0.3*ОУстный экзамен + 0.7*ОДЗ

При отказе от устного экзамене

Оценка = 1.0*ОДЗ

Домашние задания

После выдачи домашнего задания студентам предоставляется 2 (две) недели на выполнение.

Каждый день просрочки штрафуется 1 баллом от максимальной оценки за соответствующее задание.

Main Track

  1. Обучение эмбеддингов с помощью библиотеки fasttext, реализация реального движка поиска эмбеддинга-ответа по запросу в векторной БД
    - Выдаётся на неделе 1
    - Весит 30% от итога
  2. Тонкая настройка (fine-tuning) BERT на собственных данных
    - Выдаётся на неделе 4
    - Весит 20% от итога
  3. Тонкая настройка LLM (LLAMA 3 8b) с помощью PEFT
    - Выдаётся на неделе 5
    - Весит 20% от итога

Optional Track

  • Тонкая настройка собственной модели с использованием библиотеки TRL
    - Выдаётся на неделе 6
    - Весит 15% от итога
  • Реализация Round-to-Nearest (RTN), Generalized Post-Training Quantization (GPTQ)
    - Выдаётся на неделе 7
    - Весит 15% от итога

Устный экзамен

Программой курса предусмотрен устный экзамен, в рамках которого студентам будет предложено тянуть случайный билет с вопросом по пройденному материалу.

Автоматы

На курсе предусмотрены автоматы: Если оценка студента за блок “домашние задания” ≥ 4 и устраивает студента, ее можно зачесть в виде автомата.

Литература