Компьютерная лингвистика и информационные технологии 2020 — различия между версиями

Материал из Wiki - Факультет компьютерных наук
Перейти к: навигация, поиск
(оценка)
 
(не показано 26 промежуточных версии этого же участника)
Строка 41: Строка 41:
  
 
[https://github.com/vmkhlv/hse_compling_and_it github]
 
[https://github.com/vmkhlv/hse_compling_and_it github]
 +
 +
[https://docs.google.com/spreadsheets/d/1p69PPg-edeRi3ScghLHcgwDII_5NdupsZfFRUr0JOTk/ таблица с оценками]
 +
 +
[https://github.com/vmkhlv/hse_compling_and_it/tree/master/final%20projects финальные проекты]
 +
 +
{| class="wikitable"
 +
|-
 +
! дата занятия !! тема !! видео !! материалы !! ссылка на дз !! дедлайн !! последний дедлайн
 +
|-
 +
| 11 сентября || подготовка данных || [https://youtu.be/6dI0GGguFlI youtube] ||[https://github.com/vmkhlv/hse_compling_and_it/tree/master/week_01 github]|| [https://forms.gle/Y8LW36CZo5MF83SN7 квиз 1]
 +
 +
[https://forms.gle/37E9AztXEqSN26LC7 дз 1]
 +
|| 23 сентября 23:59 || --
 +
|-
 +
| 17 сентября || векторизация текстовых данных || [https://youtu.be/KyxHC6cuasM youtube] || [https://github.com/vmkhlv/hse_compling_and_it/tree/master/week_02 github] || [https://docs.google.com/forms/d/e/1FAIpQLSeNkNDCqg-ZV3kGuq64hr5dPCYb9FyO-vfVGY0tTHoQQPw7Vg/viewform  дз 2] || 7 октября 23:59 || --
 +
|-
 +
| 25 сентября || классификация  || [https://youtu.be/BaEMtU3D2-c youtube] || [https://github.com/vmkhlv/hse_compling_and_it/tree/master/week_03 github] || [https://forms.gle/tcimXM5sw7dmvbZm6 дз 3] || 11 октября 23:59 || --
 +
|-
 +
| 2 октября || регрессия, аугментация || [https://www.youtube.com/watch?v=42JeQ_YxAOg&feature=youtu.be youtube]  || [https://github.com/vmkhlv/hse_compling_and_it/tree/master/week_04 github] || [https://forms.gle/6M7g4y92WyEk1QCj6 квиз 2] || 14 октября 23:59  || --
 +
|-
 +
| 9 октября || переобучение, кросс-валидация|| [https://www.youtube.com/watch?v=xHZtS4gc7NM&feature=youtu.be youtube] || [https://github.com/vmkhlv/hse_compling_and_it/tree/master/week_05 github] || [https://docs.google.com/forms/d/e/1FAIpQLScDfK3Pr_haGWUDC052lFFEW4yFE5uFs2BNwDyuA8z__RR2cQ/viewform дз 4] || 25 октября 23:59 || --
 +
|-
 +
| 15 октября || MLP (перцептрон), forward pass|| [https://www.youtube.com/watch?v=4BSupItpCnU&feature=youtu.be youtube]|| -- || -- || -- || --
 +
|-
 +
| 11 ноября ||  MLP (перцептрон), backward pass|| [https://www.youtube.com/watch?v=85hFCYYTsdI&feature=youtu.be youtube] || [https://github.com/vmkhlv/hse_compling_and_it/tree/master/week_06-07 github] || [https://docs.google.com/forms/d/e/1FAIpQLSezm8SxeEK3iZ9vLEPgjZRHOw9rFVgAdKK0fQKH7i06WejTyA/viewform дз 5] || 20 декабря 23:59 || 3 января 23:59
 +
|-
 +
| 17,19 ноября ||  эмбеддинги|| [https://youtu.be/jLmHkgX3TXc youtube] || [https://github.com/vmkhlv/hse_compling_and_it/tree/master/week_08-09 github] || [https://docs.google.com/forms/d/e/1FAIpQLSdYtF6zYliPAllxsxAtc4FRKVVwRbfYiPfTdeYfvSEf8RxfBQ/viewform квиз 3] || 6 декабря 23:59 || 20 декабря 23:59
 +
|-
 +
| 25,26 ноября ||  эмбеддинги продолжение || [https://www.youtube.com/watch?v=JVgkH00J7yU&feature=youtu.be youtube]|| [https://github.com/vmkhlv/hse_compling_and_it/tree/master/week_08-09 github] || -- || -- || --
 +
|-
 +
| 26,27 ноября ||  CNN, Keras intro || [https://www.youtube.com/watch?v=wzRNy88k8yE&feature=youtu.be youtube] || [https://github.com/vmkhlv/hse_compling_and_it/tree/master/week_10 github]  || -- || -- || --
 +
|-
 +
| 1,3 декабря ||  RNN forward pass, computational efficiency|| [https://www.youtube.com/watch?v=Tdy1dQ-Bevg&feature=youtu.be youtube] [ youtube2]|| -- || [https://forms.gle/MBoQGb8QQxbMXrQV6 квиз 4] || 16 декабря 23:59 || 30 декабря 23:59
 +
|-
 +
| 8,10 декабря ||  RNN backprop|| [ youtube] || -- || -- || -- || --
 +
|-
 +
| 15,17 декабря ||  CharCNN+biLSTM Keras || [https://youtu.be/KELOC607qPs youtube] || [https://github.com/vmkhlv/hse_compling_and_it/tree/master/week_12 github] || [https://docs.google.com/forms/d/e/1FAIpQLSco_qu6ndhrxg9bY_Zknd_hY1S0Bl3y9ejaek9vQXBSIyMWOw/viewform дз 6] || 7 февраля 23:59 || 21 февраля 23:59
 +
|-
 +
| 13 января ||  разбор контрольной || [https://www.youtube.com/watch?v=XxjPS8N1KJQ&feature=youtu.be youtube] || -- || -- || -- || --
 +
|-
 +
| 20,21 января ||  Torch intro || [https://www.youtube.com/watch?v=iEXRXAEsUm8&feature=youtu.be youtube] || [https://github.com/vmkhlv/hse_compling_and_it/tree/master/week_13 github] || -- || -- || --
 +
|-
 +
| 27,28 января ||  Sequence tagging, LSTM. Torch || [https://www.youtube.com/watch?v=nq6KFF81kRc&feature=youtu.be youtube] || -- || -- || -- || --
 +
|-
 +
| 11 февраля || механизм внимания || [https://www.youtube.com/watch?v=GUCCK7ORQx4 youtube] || -- || -- || -- || --
 +
|-
 +
| 20 февраля || семинар по torch, keras || [https://www.youtube.com/watch?v=HLykCi7dnvg&feature=youtu.be youtube] || -- || -- || -- || --
 +
|-
 +
| 4 марта || ELMO || [https://www.youtube.com/watch?v=jRICKCBAPxk&feature=youtu.be youtube] || -- || -- || -- || --
 +
|-
 +
| 5 марта || BERT intro|| [https://www.youtube.com/watch?v=q-RpBnNb5J0 youtube] || -- || -- || -- || --
 +
|-
 +
| 11,12 марта || Distant supervision (базы знаний + извлечение отношений)|| [https://www.youtube.com/watch?v=5RjSYoiu3NU youtube] || [https://github.com/vmkhlv/hse_compling_and_it/tree/master/week%2017 github] || -- || -- || --
 +
|-
 +
| 12,17 марта || архитектура Transformer || [https://www.youtube.com/watch?v=Vo0Kf2CJsMw youtube] || -- || -- || -- || --
 +
|-
 +
| 18 марта || BERT how to || [https://www.youtube.com/watch?v=GOEkwrR79nA youtube] || [https://github.com/vmkhlv/hse_compling_and_it/tree/master/week%2018 github] || -- || -- || --
 +
|-
 +
| 19 марта || оценка моделей, графы в NLP || [https://www.youtube.com/watch?v=bIEbk4CzxxQ youtube] || [https://github.com/vmkhlv/hse_compling_and_it/tree/master/week_17-18 github] || -- || -- || --
 +
|-
 +
 +
|}
  
  

Текущая версия на 23:30, 24 марта 2021

О курсе

Курс читается для бакалавров 4-го курса ФГН в рамках программы "Фундаментальная и компьютерная лингвистика" в 1-3 модулях.


Преподаватели:

  • блок “Информационный поиск“:

Дроздова Ксения Андреевна (Telegram )


  • блок “Компьютерная лингвистика“:

Олег Сериков (Почта, Telegram ), Мария Пономарева (Почта, Telegram ), Влад Михайлов (Почта, Telegram )


Ассистенты: Кирилл Коновалов(Почта, Telegram ), Дарья Самсонова(Почта, Telegram )


Содержание учебной дисциплины

  • Блок “Информационный поиск“
    • Введение в информационный поиск, булев поиск, обратный индекс, Okapi BM25, семантический поиск, векторные модели, модель выделения корня слова, основанная на RNN, логирование, добавление в поисковик
  • Блок “Компьютерная лингвистика“
    • Предобработка данных
    • Базовые понятия машинного обучения, алгоритмы машинного обучения для задач классификации, кластеризации и регрессии
    • Избранные главы математики для машинного обучения
    • FFN, CNN, RNN, LSTM
    • Sequence-to-sequence, Sequence Tagging, Language Modeling
    • Статические эмбеддинги (Word2Vec, FastText)
    • Контекстуальные эмбеддинги (BERT, ELMo)


Материалы курса:

github

таблица с оценками

финальные проекты

дата занятия тема видео материалы ссылка на дз дедлайн последний дедлайн
11 сентября подготовка данных youtube github квиз 1

дз 1

23 сентября 23:59 --
17 сентября векторизация текстовых данных youtube github дз 2 7 октября 23:59 --
25 сентября классификация youtube github дз 3 11 октября 23:59 --
2 октября регрессия, аугментация youtube github квиз 2 14 октября 23:59 --
9 октября переобучение, кросс-валидация youtube github дз 4 25 октября 23:59 --
15 октября MLP (перцептрон), forward pass youtube -- -- -- --
11 ноября MLP (перцептрон), backward pass youtube github дз 5 20 декабря 23:59 3 января 23:59
17,19 ноября эмбеддинги youtube github квиз 3 6 декабря 23:59 20 декабря 23:59
25,26 ноября эмбеддинги продолжение youtube github -- -- --
26,27 ноября CNN, Keras intro youtube github -- -- --
1,3 декабря RNN forward pass, computational efficiency youtube [ youtube2] -- квиз 4 16 декабря 23:59 30 декабря 23:59
8,10 декабря RNN backprop [ youtube] -- -- -- --
15,17 декабря CharCNN+biLSTM Keras youtube github дз 6 7 февраля 23:59 21 февраля 23:59
13 января разбор контрольной youtube -- -- -- --
20,21 января Torch intro youtube github -- -- --
27,28 января Sequence tagging, LSTM. Torch youtube -- -- -- --
11 февраля механизм внимания youtube -- -- -- --
20 февраля семинар по torch, keras youtube -- -- -- --
4 марта ELMO youtube -- -- -- --
5 марта BERT intro youtube -- -- -- --
11,12 марта Distant supervision (базы знаний + извлечение отношений) youtube github -- -- --
12,17 марта архитектура Transformer youtube -- -- -- --
18 марта BERT how to youtube github -- -- --
19 марта оценка моделей, графы в NLP youtube github -- -- --


Формула оценки

Промежуточная аттестация (1 модуль)

0.5 * Блок “Информационный поиск” + 0.5 * Блок “Компьютерная лингвистика”:

Блок “Информационный поиск”: 0.7 * Домашние задания + 0.3 * Экзамен (Модуль 1)

Блок “Компьютерная лингвистика”: 0.8 * Домашние задания + 0.2 * Тесты


Накопленная оценка (Модуль 2-3):

0.7 * Домашние задания (Модуль 2-3) + 0.3 * Тесты (Модуль 2-3)


Итоговая аттестация: 0.3 * (Промежуточная аттестация (1 модуль)) + 0.3 * (Накопленная оценка (Модуль 2-3)) + 0.2 * Промежуточный контроль (Модуль 2) + 0.2 * Экзамен (Модуль 3)


Рекомендованная литература

  1. Daniel Jurafsky & James H. Martin. Speech and Language Processing: An introduction to natural language processing, computational linguistics, and speech recognition. Third Edition. https://web.stanford.edu/~jurafsky/slp3/
  2. Николаев И.С., Митренина О.В., Ландо Т.М. (ред.) Прикладная и компьютерная лингвистика. Изд 2. URSS. 2017. 320 с.
  3. Steven Bird, Ewan Klein, Edward Loper. Natural Language Processing with Python. – Analyzing Text with the Natural Language Toolkit. https://www.nltk.org/book/
  4. Christopher D. Manning & Hinrich Schütze. Foundations of Statistical Natural Language Processing. MIT Press, 1999.
  5. Yoav Goldberg. Neural Network Methods for Natural Language Processing (Synthesis Lectures on Human Language Technologies). Edited by Graeme Hirst. Morgan & Claypool 2017
  6. Cборники конференций COLING, ACL, EACL, LREC, EMNLP, NAACL, "Диалог" последних лет