Глубинное обучение для текстовых данных 24/25

Содержание

1 О курсе
2 Расписание
3 Полезные ссылки
4 Темы курса
5 Домашние задания
6 Преподаватели и ассистенты
7 Контрольная работа
8 Формула оценок

О курсе

NLP (Natural Language Processing) — это область машинного обучения, которая пытается научить компьютер понимать и обрабатывать текстовые данные. NLP лежит в основе множества технологий, таких как системы перевода и генерации текстов, голосовые помощники, суммаризаторы текстов, спам детекторы и так далее. В настоящее время такие технологии не только облегчают жизнь людям, решая несложные задачи быстрее них. Часто модели машинного обучения позволяют достигать более высокого качества и оказываются “умнее” многих людей. Примером такой модели может стать нашумевшая ChatGPT, способная корректно отвечать на вопросы по самым различным темам. В курсе мы пройдем весь путь развития подходов NLP от классического машинного обучения до современных больших языковых моделей и узнаем, какие задачи встречаются в NLP и как правильно подходить к их решению. Особое внимание мы уделим Трансформерным моделям и обсудим, как обучать их наиболее эффективно, а так же какими свойствами обладают предобученные модели. Каждая тема будет сопровождаться домашним заданием, при решении которого студенты смогут лучше разобраться в тонкостях реализаций обсуждаемых подходов на практике.

Расписание

Лекция: Вторник 16:20. Ссылка на zoom.

Семинары:

Группа 1 (Биршерт): Четверг 18:10. Ссылка на zoom.
Группа 2 (Панков): Вторник 18:10. Ссылка на zoom.

Полезные ссылки

Общий чат курса в telegram: https://t.me/+y3lpNwqty_9iYjYy

Github курса: https://github.com/ashaba1in/hse-nlp/tree/main/2024

Таблица с оценками: https://docs.google.com/spreadsheets/d/1G8joZP-WQmrdbW1P6lpjdxceBPvuRQw_Q8RIROq8OBg/edit?usp=sharing

anytask для сдачи домашних заданий: https://anytask.org/course/1141.

  Инвайты:
  * Первая группа: 4j9MpiI
  * Вторая группа: DH8HCdZ

Темы курса

1. Классификация текста. Записи: лекция, семинар

2. Генерация текста. Методы токенизации. Записи: лекция, семинар

3. Рекуррентные нейронные сети. Трансформер. Записи: лекция, семинар

4. Декодирование текста. BERT. GPT. Записи: лекция, семинар

5. Современные языковые модели. Записи: лекция, семинар

6. Transfer learning. Parameter-Efficient Fine-tuning. Записи: лекция

7. Уменьшение размера моделей. Записи: лекция, семинар

8. Лекция от Тимофей Смирнова про Яндекс Нейро. Записи: лекция

9. Retrieval-augmented generation (RAG). Записи: лекция

10. Текстовые диффузионные модели. Записи: лекция

11. Active Learning. Записи: лекция

Домашние задания

1. Text Suggestion: условие

2. Рекуррентные нейронные сети: условие

3. LLaMA: условие

4. Уменьшение размеров модели: условие

5. Retrieval-Augmented Generation: условие

Преподаватели и ассистенты

Преподаватели	Ассистенты
Александр Шабалин	Андрей Ишутин
Алексей Биршерт	Николай Юдин
Алексей Панков	Анастасия Кеммер

Контрольная работа

Контрольная работа пройдет 05.11.2024 на лекции в R207 в формате письменной работы на 80 минут. Вопросы для подготовки.

Формула оценок

Определим накопленную оценку как Накоп = (0.4 * ДЗ + 0.3 * КР) / 0.7.

Итог = Округление(0.7 * Накоп + 0.3 * Э). Округление арифметическое.

ДЗ — средняя оценка за домашние задания
КР — оценка за контрольную работу
Э — оценка за экзамен

Если Накоп >= 8, то студент может получить Округление(Накоп) в качестве итоговой оценки, не приходя на экзамен.

Формат экзамена: устный.

Глубинное обучение для текстовых данных 24/25

Содержание

О курсе

Расписание

Полезные ссылки

Темы курса

Домашние задания

Преподаватели и ассистенты

Контрольная работа

Формула оценок

Навигация

Персональные инструменты

Пространства имён

Варианты

Просмотры

Действия

Поиск

Навигация

Инструменты