Глубинное обучение для текстовых данных 24/25 — различия между версиями

Материал из Wiki - Факультет компьютерных наук
Перейти к: навигация, поиск
(не показано 15 промежуточных версии 2 участников)
Строка 6: Строка 6:
 
== Расписание ==
 
== Расписание ==
  
'''Лекция:''' Вторник 16:20
+
'''Лекция:''' Вторник 16:20. Ссылка на [https://us06web.zoom.us/j/82583958930?pwd=ZuJXR3T1oo2SepCVtOFeOdWlgCGaF8.1 zoom].
  
 
'''Семинары:'''
 
'''Семинары:'''
  
* Группа 1 (Биршерт): Четверг 18:10
+
* Группа 1 (Биршерт): Четверг 18:10. Ссылка на [https://us06web.zoom.us/j/83582653324?pwd=Q3o2FyGfRWOgZ5TNSBsvn5GjvyFjlC.1 zoom].
* Группа 2 (Панков): Вторник 18:10
+
* Группа 2 (Панков): Вторник 18:10. Ссылка на [https://us06web.zoom.us/j/88476820471?pwd=EUglqWPrsLotvvWEFcNbWoUhOJBGDb.1 zoom].
  
 
== Полезные ссылки ==
 
== Полезные ссылки ==
  
Общий чат курса в telegram: https://t.me/+y3lpNwqty_9iYjYy
+
* Общий чат курса в telegram: https://t.me/+y3lpNwqty_9iYjYy
 +
 
 +
* Github курса: https://github.com/ashaba1in/hse-nlp/tree/main/2024
 +
 
 +
* anytask для сдачи домашних заданий: https://anytask.org/course/1141.
 +
 
 +
  Инвайты:
 +
  * Первая группа: 4j9MpiI
 +
  * Вторая группа: DH8HCdZ
 +
 
 +
== Темы курса ==
 +
 
 +
1. Классификация текста. Записи: [https://disk.yandex.ru/i/VZBjWbskRzyDWg лекция], [https://disk.yandex.ru/i/NeZPJoCaLyfXTQ семинар]
 +
 
 +
2. Генерация текста. Методы токенизации. Записи: [https://disk.yandex.ru/i/QFKbGoLQaPgdQQ лекция], [https://disk.yandex.ru/i/FFTIFnsKRk9mnw семинар]
 +
 
 +
3. Рекуррентные нейронные сети. Трансформер. Записи: [https://disk.yandex.ru/i/EwiRHrE5k2tKKw лекция], [https://disk.yandex.ru/i/k6GLXCDISAPWyA семинар]
 +
 
 +
4. Декодирование текста. BERT. GPT. Записи: [https://disk.yandex.ru/d/UzOvSJo3wzwRfg лекция], [https://disk.yandex.ru/i/ESJGALwhHmpeFw семинар]
 +
 
 +
5. Современные языковые модели. Записи: [https://disk.yandex.ru/d/XxifHojvPcc11Q лекция], [https://disk.yandex.ru/i/uBlwwxeRLHm5pA семинар]
 +
 
 +
6. Transfer learning. Parameter-Efficient Fine-tuning. Записи: [https://disk.yandex.ru/i/Uu8kcbw-ylEX8Q лекция]
 +
 
 +
7. Уменьшение размера моделей. Записи: [https://disk.yandex.ru/i/_JAcNx3GDxFJ-Q лекция], [https://disk.yandex.ru/i/WvX6CeJV7NUp5g семинар]
 +
 
 +
== Домашние задания ==
 +
 
 +
1. Text Suggestion: [https://github.com/ashaba1in/hse-nlp/blob/main/2024/week2_generation/homework/hw1.ipynb условие]
 +
 
 +
2. Рекуррентные нейронные сети: [https://github.com/ashaba1in/hse-nlp/blob/main/2024/week3_rnn_transformer/homework/hw2.ipynb условие]
 +
 
 +
3. LLaMA: [https://github.com/ashaba1in/hse-nlp/tree/main/2024/week5_modern_llms/homework условие]
 +
 
 +
4. Уменьшение размеров модели: [https://github.com/ashaba1in/hse-nlp/blob/main/2024/week7_size_reduction/homework/hw4.ipynb условие]
  
 
== Преподаватели и ассистенты ==
 
== Преподаватели и ассистенты ==
Строка 30: Строка 64:
 
|-
 
|-
 
|}
 
|}
 
== Домашние задания ==
 
  
 
== Контрольная работа ==
 
== Контрольная работа ==
 +
 +
Контрольная работа пройдет 05.11.2024 на лекции в R207 в формате письменной работы на 80 минут. [https://docs.google.com/document/d/15jkjm8w-TaTSzztuOCLjOeIh2SaABh6a4t2J0Aho31I/edit?usp=sharing Вопросы для подготовки].
  
 
== Формула оценок ==
 
== Формула оценок ==

Версия 19:24, 14 ноября 2024

О курсе

NLP (Natural Language Processing) — это область машинного обучения, которая пытается научить компьютер понимать и обрабатывать текстовые данные. NLP лежит в основе множества технологий, таких как системы перевода и генерации текстов, голосовые помощники, суммаризаторы текстов, спам детекторы и так далее. В настоящее время такие технологии не только облегчают жизнь людям, решая несложные задачи быстрее них. Часто модели машинного обучения позволяют достигать более высокого качества и оказываются “умнее” многих людей. Примером такой модели может стать нашумевшая ChatGPT, способная корректно отвечать на вопросы по самым различным темам. В курсе мы пройдем весь путь развития подходов NLP от классического машинного обучения до современных больших языковых моделей и узнаем, какие задачи встречаются в NLP и как правильно подходить к их решению. Особое внимание мы уделим Трансформерным моделям и обсудим, как обучать их наиболее эффективно, а так же какими свойствами обладают предобученные модели. Каждая тема будет сопровождаться домашним заданием, при решении которого студенты смогут лучше разобраться в тонкостях реализаций обсуждаемых подходов на практике.

Расписание

Лекция: Вторник 16:20. Ссылка на zoom.

Семинары:

  • Группа 1 (Биршерт): Четверг 18:10. Ссылка на zoom.
  • Группа 2 (Панков): Вторник 18:10. Ссылка на zoom.

Полезные ссылки

  Инвайты:
  * Первая группа: 4j9MpiI
  * Вторая группа: DH8HCdZ

Темы курса

1. Классификация текста. Записи: лекция, семинар

2. Генерация текста. Методы токенизации. Записи: лекция, семинар

3. Рекуррентные нейронные сети. Трансформер. Записи: лекция, семинар

4. Декодирование текста. BERT. GPT. Записи: лекция, семинар

5. Современные языковые модели. Записи: лекция, семинар

6. Transfer learning. Parameter-Efficient Fine-tuning. Записи: лекция

7. Уменьшение размера моделей. Записи: лекция, семинар

Домашние задания

1. Text Suggestion: условие

2. Рекуррентные нейронные сети: условие

3. LLaMA: условие

4. Уменьшение размеров модели: условие

Преподаватели и ассистенты

Преподаватели Ассистенты
Александр Шабалин Андрей Ишутин
Алексей Биршерт Николай Юдин
Алексей Панков Анастасия Кеммер

Контрольная работа

Контрольная работа пройдет 05.11.2024 на лекции в R207 в формате письменной работы на 80 минут. Вопросы для подготовки.

Формула оценок

Определим накопленную оценку как Накоп = (0.4 * ДЗ + 0.3 * КР) / 0.7.

Итог = Округление(0.7 * Накоп + 0.3 * Э). Округление арифметическое.

  • ДЗ — средняя оценка за домашние задания
  • КР — оценка за контрольную работу
  • Э — оценка за экзамен

Если Накоп >= 8, то студент может получить Округление(Накоп) в качестве итоговой оценки, не приходя на экзамен.

Формат экзамена: устный.