Компьютерная лингвистика и информационные технологии 2020

Материал из Wiki - Факультет компьютерных наук
Перейти к: навигация, поиск

О курсе

Курс читается для бакалавров 4-го курса ФГН в рамках программы "Фундаментальная и компьютерная лингвистика" в 1-3 модулях.


Преподаватели:

  • блок “Информационный поиск“:

Дроздова Ксения Андреевна (Telegram )


  • блок “Компьютерная лингвистика“:

Олег Сериков (Почта, Telegram ), Мария Пономарева (Почта, Telegram ), Влад Михайлов (Почта, Telegram )


Ассистенты: Кирилл Коновалов(Почта, Telegram ), Дарья Самсонова(Почта, Telegram )


Содержание учебной дисциплины

  • Блок “Информационный поиск“
    • Введение в информационный поиск, булев поиск, обратный индекс, Okapi BM25, семантический поиск, векторные модели, модель выделения корня слова, основанная на RNN, логирование, добавление в поисковик
  • Блок “Компьютерная лингвистика“
    • Предобработка данных
    • Базовые понятия машинного обучения, алгоритмы машинного обучения для задач классификации, кластеризации и регрессии
    • Избранные главы математики для машинного обучения
    • FFN, CNN, RNN, LSTM
    • Sequence-to-sequence, Sequence Tagging, Language Modeling
    • Статические эмбеддинги (Word2Vec, FastText)
    • Контекстуальные эмбеддинги (BERT, ELMo)


Материалы курса:

github

таблица с оценками

финальные проекты

дата занятия тема видео материалы ссылка на дз дедлайн последний дедлайн
11 сентября подготовка данных youtube github квиз 1

дз 1

23 сентября 23:59 --
17 сентября векторизация текстовых данных youtube github дз 2 7 октября 23:59 --
25 сентября классификация youtube github дз 3 11 октября 23:59 --
2 октября регрессия, аугментация youtube github квиз 2 14 октября 23:59 --
9 октября переобучение, кросс-валидация youtube github дз 4 25 октября 23:59 --
15 октября MLP (перцептрон), forward pass youtube -- -- -- --
11 ноября MLP (перцептрон), backward pass youtube github дз 5 20 декабря 23:59 3 января 23:59
17,19 ноября эмбеддинги youtube github квиз 3 6 декабря 23:59 20 декабря 23:59
25,26 ноября эмбеддинги продолжение youtube github -- -- --
26,27 ноября CNN, Keras intro youtube github -- -- --
1,3 декабря RNN forward pass, computational efficiency youtube [ youtube2] -- квиз 4 16 декабря 23:59 30 декабря 23:59
8,10 декабря RNN backprop [ youtube] -- -- -- --
15,17 декабря CharCNN+biLSTM Keras youtube github дз 6 7 февраля 23:59 21 февраля 23:59
13 января разбор контрольной youtube -- -- -- --
20,21 января Torch intro youtube github -- -- --
27,28 января Sequence tagging, LSTM. Torch youtube -- -- -- --
11 февраля механизм внимания youtube -- -- -- --
20 февраля семинар по torch, keras youtube -- -- -- --
4 марта ELMO youtube -- -- -- --
5 марта BERT intro youtube -- -- -- --
11,12 марта Distant supervision (базы знаний + извлечение отношений) youtube github -- -- --
12,17 марта архитектура Transformer youtube -- -- -- --
18 марта BERT how to youtube github -- -- --
19 марта оценка моделей, графы в NLP youtube github -- -- --


Формула оценки

Промежуточная аттестация (1 модуль)

0.5 * Блок “Информационный поиск” + 0.5 * Блок “Компьютерная лингвистика”:

Блок “Информационный поиск”: 0.7 * Домашние задания + 0.3 * Экзамен (Модуль 1)

Блок “Компьютерная лингвистика”: 0.8 * Домашние задания + 0.2 * Тесты


Накопленная оценка (Модуль 2-3):

0.7 * Домашние задания (Модуль 2-3) + 0.3 * Тесты (Модуль 2-3)


Итоговая аттестация: 0.3 * (Промежуточная аттестация (1 модуль)) + 0.3 * (Накопленная оценка (Модуль 2-3)) + 0.2 * Промежуточный контроль (Модуль 2) + 0.2 * Экзамен (Модуль 3)


Рекомендованная литература

  1. Daniel Jurafsky & James H. Martin. Speech and Language Processing: An introduction to natural language processing, computational linguistics, and speech recognition. Third Edition. https://web.stanford.edu/~jurafsky/slp3/
  2. Николаев И.С., Митренина О.В., Ландо Т.М. (ред.) Прикладная и компьютерная лингвистика. Изд 2. URSS. 2017. 320 с.
  3. Steven Bird, Ewan Klein, Edward Loper. Natural Language Processing with Python. – Analyzing Text with the Natural Language Toolkit. https://www.nltk.org/book/
  4. Christopher D. Manning & Hinrich Schütze. Foundations of Statistical Natural Language Processing. MIT Press, 1999.
  5. Yoav Goldberg. Neural Network Methods for Natural Language Processing (Synthesis Lectures on Human Language Technologies). Edited by Graeme Hirst. Morgan & Claypool 2017
  6. Cборники конференций COLING, ACL, EACL, LREC, EMNLP, NAACL, "Диалог" последних лет