Глубинное обучение для текстовых данных 23/24 — различия между версиями

Материал из Wiki - Факультет компьютерных наук
Перейти к: навигация, поиск
Строка 34: Строка 34:
 
|-
 
|-
 
|}
 
|}
 +
 +
== Темы курса ==
 +
 +
1. Методы получения эмбеддингов слов: Счетные методы, Word2vec, GLOVE. Записи: [https://www.youtube.com/watch?v=Ji68egxAWgw лекция], [https://www.youtube.com/watch?v=My80O5Vx6fs&list=PLEwK9wdS5g0pc4NeOQqGLPcxmBHGUjnWB&index=2 семинар]
 +
 +
2. Классификация текста. Записи: [https://www.youtube.com/watch?v=mNs0_icYp4I лекция], [https://www.youtube.com/watch?v=FFmsejByamQ&list=PLEwK9wdS5g0pc4NeOQqGLPcxmBHGUjnWB&index=4 семинар]
 +
 +
3. Токенизация, языковые модели. Записи: [https://www.youtube.com/watch?v=_WPXfEAsbTE лекция], [https://www.youtube.com/watch?v=RrdYiCs2-zI&list=PLEwK9wdS5g0pc4NeOQqGLPcxmBHGUjnWB&index=6 семинар]
 +
 +
4. Рекуррентные нейронные сети. Записи: [https://www.youtube.com/watch?v=9BBGEMI50O8&list=PLEwK9wdS5g0pc4NeOQqGLPcxmBHGUjnWB&index=7 лекция], [https://www.youtube.com/watch?v=6ojpRmCea0M&list=PLEwK9wdS5g0pc4NeOQqGLPcxmBHGUjnWB&index=8 семинар]
 +
 +
5. Seq2seq задача, механизм внимания, трансформер. Записи: [https://www.youtube.com/watch?v=0_t0-uvihJ0&list=PLEwK9wdS5g0pc4NeOQqGLPcxmBHGUjnWB&index=10 лекция], [https://www.youtube.com/watch?v=E1btQgjPt2o&list=PLEwK9wdS5g0pc4NeOQqGLPcxmBHGUjnWB&index=9 семинар]
 +
  
 
== Домашние задания ==
 
== Домашние задания ==

Версия 18:00, 13 октября 2023

О курсе

NLP (Natural Language Processing) — это область машинного обучения, которая пытается научить компьютер понимать и обрабатывать текстовые данные. NLP лежит в основе множества технологий, таких как системы перевода и генерации текстов, голосовые помощники, суммаризаторы текстов, спам детекторы и так далее. В настоящее время такие технологии не только облегчают жизнь людям, решая несложные задачи быстрее них. Часто модели машинного обучения позволяют достигать более высокого качества и оказываются “умнее” многих людей. Примером такой модели может стать нашумевшая ChatGPT, способная корректно отвечать на вопросы по самым различным темам.

В курсе мы постараемся дать вам понять и прочувствовать, что происходит в мире естественной обработки языка. Какие задачи бывают, какие проблемы встречаются в ходе их решения. Мы покажем, что NLP — это не набор пар (задача, решение), а общие идеи, которые применимы для решения множества задач и отражают некоторую общую концепцию.

Расписание

Лекции: каждый четверг в 13:00. Ссылка на зум.

Семинары: каждый четверг в 14:40. Сашин зум, Славин зум.

Полезные ссылки

Общий чат курса в telegram: https://t.me/+Nc5s_kMhUE44MWM6

Репозиторий курса на github: https://github.com/ashaba1in/hse-nlp

Плейлист с записями лекций: https://www.youtube.com/playlist?list=PLEwK9wdS5g0pc4NeOQqGLPcxmBHGUjnWB

Ссылка на anytask: https://anytask.org/course/1053

Инвайты: Сашина группа - Vai3xuK, Славина группа - Kutq97v

Преподаватели и ассистенты

Преподаватели Ассистенты
Александр Шабалин Алексей Панков
Вячеслав Мещанинов

Темы курса

1. Методы получения эмбеддингов слов: Счетные методы, Word2vec, GLOVE. Записи: лекция, семинар

2. Классификация текста. Записи: лекция, семинар

3. Токенизация, языковые модели. Записи: лекция, семинар

4. Рекуррентные нейронные сети. Записи: лекция, семинар

5. Seq2seq задача, механизм внимания, трансформер. Записи: лекция, семинар


Домашние задания

Домашнее задание 1: Задание посвящено обучению векторных представлений слов.

Ссылка на ноутбук с заданием.

Формула оценок

Определим накопленную оценку как Накоп = (0.4 * ДЗ + 0.3 * КР) / 0.7.

Итог = Округление(0.7 * Накоп + 0.3 * Э). Округление арифметическое.

  • ДЗ — средняя оценка за домашние задания
  • КР — оценка за контрольную работу
  • Э — оценка за экзамен

Если Накоп >= 8, то студент может получить Округление(Накоп) в качестве итоговой оценки, не приходя на экзамен.

Формат экзамена: устный.