Автоматическая обработка текста 24/25 (МОВС23) — различия между версиями

Материал из Wiki - Факультет компьютерных наук
Перейти к: навигация, поиск
м (add chat link)
м (add weeks1-3 links)
Строка 35: Строка 35:
  
 
==Материалы курса==
 
==Материалы курса==
Ссылка на плейлист курса на YouTube: [[ YouTube-playlist]]
+
Ссылка на плейлист курса на YouTube: [https://www.youtube.com/playlist?list=PLmA-1xX7IuzBARI5ES_l6WOduw0CZs3t4 YouTube-playlist]
 +
 
 +
Ссылка на плейлист в VK: [https://vk.com/video/playlist/-227011779_15 VK Видео]
  
 
Ссылка на GitHub с материалами курса: [https://github.com/greedisneutral/NLP-course GitHub repository]
 
Ссылка на GitHub с материалами курса: [https://github.com/greedisneutral/NLP-course GitHub repository]
Строка 43: Строка 45:
 
  ! Занятие !! Тема !! Дата !! Материалы для самоподготовки к семинарам !! Дополнительные материалы
 
  ! Занятие !! Тема !! Дата !! Материалы для самоподготовки к семинарам !! Дополнительные материалы
 
|-
 
|-
| style="background:#eaecf0;" | '''1''' [[ Запись]] || [[ Слайды]] Карта задач и методов NLP, эмбеддинги слов (word embeddings) || 06.11.24 (Ср.) || ||  
+
| style="background:#eaecf0;" | '''1''' [[https://www.youtube.com/watch?v=QSLSIiQ6Mcs&list=PLmA-1xX7IuzBARI5ES_l6WOduw0CZs3t4&index=2&pp=iAQB Запись, YouTube]] || [[https://github.com/greedisneutral/NLP-course/blob/master/1.Embeddings/Word_Embeddings.pdf Слайды], [https://github.com/greedisneutral/NLP-course/blob/master/1.Embeddings/NLP_seminar_week_1.ipynb Тетрадка]] Карта задач и методов NLP, эмбеддинги слов (word embeddings) || 06.11.24 (Ср.) || ||  
 
|-
 
|-
| style="background:#eaecf0;" | '''2''' [[ Запись]] || [[ Ноутбук]] Классификация текста || 14.11.24 (Чт.) || ||  
+
| style="background:#eaecf0;" | '''2''' [[https://www.youtube.com/watch?v=QjmqbOe84vY&list=PLmA-1xX7IuzBARI5ES_l6WOduw0CZs3t4&index=1&pp=iAQB Запись, YouTube]] || [[https://github.com/greedisneutral/NLP-course/blob/master/2.Classification/Classification.pdf Слайды], [https://github.com/greedisneutral/NLP-course/blob/master/2.Classification/NLP_seminar_week_2.ipynb Тетрадка]] Классификация текста || 14.11.24 (Чт.) || ||  
 
|-
 
|-
| style="background:#eaecf0;" | '''3''' [[ Запись]] || [[ Ноутбук]] Seq2seq, Трансформер и механим внимания || 21.11.24 (Чт.) || ||
+
| style="background:#eaecf0;" | '''3''' [[ Запись]] || [[https://github.com/greedisneutral/NLP-course/blob/master/3.Seq2seq/seq2seq_attention.pdf Слайды], [https://github.com/greedisneutral/NLP-course/blob/master/3.Seq2seq/NLP_seminar_week_3.ipynb Тетрадка], [https://github.com/greedisneutral/NLP-course/blob/master/3.Seq2seq/seq2seq_attention_whiteboard.pdf Доска]] Seq2seq, Трансформер и механим внимания || 21.11.24 (Чт.) || || [https://colah.github.io/posts/2015-08-Understanding-LSTMs/ Ссылка] на качественное объяснение того, как работает LSTM (да и RNN вообще)
 
|-
 
|-
 
| style="background:#eaecf0;" | '''4''' [[ Запись]] || [[ Ноутбук]] Transfer learning: BERT, ELMO, GPT || 28.11.24 (Чт.) || ||  
 
| style="background:#eaecf0;" | '''4''' [[ Запись]] || [[ Ноутбук]] Transfer learning: BERT, ELMO, GPT || 28.11.24 (Чт.) || ||  

Версия 16:39, 22 ноября 2024

О курсе

NLP — это область искусственного интеллекта, направленная на решение задач, связанных с обработкой человеческого языка, таких как извлечение информации, машинный перевод, автоматическое суммирование и диалоговые системы. За последние годы мы увидели значительный прогресс благодаря статистическому и глубокому обучению. Демонстрация возможностей современных диалоговых систем по типу ChatGPT от OpenAI позволила нам переосмыслить перспективы NLP в повседневной жизни, что привлекло к области внимание как со стороны исследователей и инженеров, так и институциональных инвесторов, готовых финансировать бурный рост отрасли.

Данный курс ставит перед собой следующие цели:

  • познакомить слушателя с ключевыми направлениями современного развития области, сформировать понимание запросов, с которыми сталкиваются инженеры и исследователи в повседневной работе.
  • развить понимание фундаментальных концепций, необходимых для самостоятельного решения задач как прикладного, так и исследовательского характера.
  • познакомить слушателя с инструментами, необходимыми для решения прикладных задач.

Курс основан на материалах Школы Анализа Данных Яндекса (ШАД), CS224n by Stanford, а также личном опыте автора. Курс приоритезирует понимание слушателями пространства существующих на сегодня в отрасли задач и умение их решать над полнотой освещения исторически важных, однако на текущий день устаревших концепций


Занятия проводятся в Zoom по четвергам в 19:40

Контакты

Чат курса в TG: chat link

Преподаватель: Хажгериев Мурат Анзорович (@greedisneutral)

Ассистент Контакты
Соня-Аня Никифорова @sonya_leaf
Стас Ивашков @ps1va
Маша Харченко @mister_autocrat
Савелий Прохоров @Savely_Prokhorov

Материалы курса

Ссылка на плейлист курса на YouTube: YouTube-playlist

Ссылка на плейлист в VK: VK Видео

Ссылка на GitHub с материалами курса: GitHub repository

Занятие Тема Дата Материалы для самоподготовки к семинарам Дополнительные материалы
1 [Запись, YouTube] [Слайды, Тетрадка] Карта задач и методов NLP, эмбеддинги слов (word embeddings) 06.11.24 (Ср.)
2 [Запись, YouTube] [Слайды, Тетрадка] Классификация текста 14.11.24 (Чт.)
3 Запись [Слайды, Тетрадка, Доска] Seq2seq, Трансформер и механим внимания 21.11.24 (Чт.) Ссылка на качественное объяснение того, как работает LSTM (да и RNN вообще)
4 Запись Ноутбук Transfer learning: BERT, ELMO, GPT 28.11.24 (Чт.)
5 Запись Ноутбук Обучение Больших языковых моделей (Large Language Models): Обучение с нуля vs Тонкая настройка (finetuning) 05.12.24 (Чт.)
6 Запись Ноутбук Reinforcement Learning From Human Feedback (RLHF), Direct Preference Optimization (DPO) 12.12.24 (Чт.)
7 Запись Ноутбук Практические подходы для эффективного обучения и развертывания LLM 19.12.24 (Чт.)
8 Запись Ноутбук Retrieval-Augmented (RAG) LLM ...<date>...

Записи консультаций

Формула оценивания

При участии в устном экзамене

Оценка = 0.3*ОУстный экзамен + 0.7*ОДЗ

При отказе от устного экзамене

Оценка = 1.0*ОДЗ

Домашние задания

После выдачи домашнего задания студентам предоставляется 2 (две) недели на выполнение.

Каждый день просрочки штрафуется 1 баллом от максимальной оценки за соответствующее задание.

Main Track

  1. Обучение эмбеддингов с помощью библиотеки fasttext, реализация реального движка поиска эмбеддинга-ответа по запросу в векторной БД
    - Выдаётся на неделе 1
    - Весит 30% от итога
  2. Тонкая настройка (fine-tuning) BERT на собственных данных
    - Выдаётся на неделе 4
    - Весит 20% от итога
  3. Тонкая настройка LLM (LLAMA 3 8b) с помощью PEFT
    - Выдаётся на неделе 5
    - Весит 20% от итога

Optional Track

  • Тонкая настройка собственной модели с использованием библиотеки TRL
    - Выдаётся на неделе 6
    - Весит 15% от итога
  • Реализация Round-to-Nearest (RTN), Generalized Post-Training Quantization (GPTQ)
    - Выдаётся на неделе 7
    - Весит 15% от итога

Устный экзамен

Программой курса предусмотрен устный экзамен, в рамках которого студентам будет предложено тянуть случайный билет с вопросом по пройденному материалу.

Автоматы

На курсе предусмотрены автоматы: Если оценка студента за блок “домашние задания” ≥ 4 и устраивает студента, ее можно зачесть в виде автомата.

Литература