Компьютерная лингвистика и информационные технологии 2020 — различия между версиями
MashPo (обсуждение | вклад) (add hw5) |
MashPo (обсуждение | вклад) |
||
(не показано 18 промежуточных версии этого же участника) | |||
Строка 41: | Строка 41: | ||
[https://github.com/vmkhlv/hse_compling_and_it github] | [https://github.com/vmkhlv/hse_compling_and_it github] | ||
+ | |||
+ | [https://docs.google.com/spreadsheets/d/1p69PPg-edeRi3ScghLHcgwDII_5NdupsZfFRUr0JOTk/ таблица с оценками] | ||
+ | |||
+ | [https://github.com/vmkhlv/hse_compling_and_it/tree/master/final%20projects финальные проекты] | ||
{| class="wikitable" | {| class="wikitable" | ||
|- | |- | ||
− | ! дата занятия !! тема !! видео !! материалы !! ссылка на дз !! дедлайн | + | ! дата занятия !! тема !! видео !! материалы !! ссылка на дз !! дедлайн !! последний дедлайн |
|- | |- | ||
| 11 сентября || подготовка данных || [https://youtu.be/6dI0GGguFlI youtube] ||[https://github.com/vmkhlv/hse_compling_and_it/tree/master/week_01 github]|| [https://forms.gle/Y8LW36CZo5MF83SN7 квиз 1] | | 11 сентября || подготовка данных || [https://youtu.be/6dI0GGguFlI youtube] ||[https://github.com/vmkhlv/hse_compling_and_it/tree/master/week_01 github]|| [https://forms.gle/Y8LW36CZo5MF83SN7 квиз 1] | ||
[https://forms.gle/37E9AztXEqSN26LC7 дз 1] | [https://forms.gle/37E9AztXEqSN26LC7 дз 1] | ||
− | || 23 сентября 23:59 | + | || 23 сентября 23:59 || -- |
|- | |- | ||
− | | 17 сентября || векторизация текстовых данных || [https://youtu.be/KyxHC6cuasM youtube] || [https://github.com/vmkhlv/hse_compling_and_it/tree/master/week_02 github] || [https://docs.google.com/forms/d/e/1FAIpQLSeNkNDCqg-ZV3kGuq64hr5dPCYb9FyO-vfVGY0tTHoQQPw7Vg/viewform дз 2] || 7 октября 23:59 | + | | 17 сентября || векторизация текстовых данных || [https://youtu.be/KyxHC6cuasM youtube] || [https://github.com/vmkhlv/hse_compling_and_it/tree/master/week_02 github] || [https://docs.google.com/forms/d/e/1FAIpQLSeNkNDCqg-ZV3kGuq64hr5dPCYb9FyO-vfVGY0tTHoQQPw7Vg/viewform дз 2] || 7 октября 23:59 || -- |
|- | |- | ||
− | | 25 сентября || классификация || [https://youtu.be/BaEMtU3D2-c youtube] || [https://github.com/vmkhlv/hse_compling_and_it/tree/master/week_03 github] || [https://forms.gle/tcimXM5sw7dmvbZm6 дз 3] || 11 октября 23:59 | + | | 25 сентября || классификация || [https://youtu.be/BaEMtU3D2-c youtube] || [https://github.com/vmkhlv/hse_compling_and_it/tree/master/week_03 github] || [https://forms.gle/tcimXM5sw7dmvbZm6 дз 3] || 11 октября 23:59 || -- |
|- | |- | ||
− | | 2 октября || регрессия, аугментация || [https://www.youtube.com/watch?v=42JeQ_YxAOg&feature=youtu.be youtube] || [https://github.com/vmkhlv/hse_compling_and_it/tree/master/week_04 github] || [https://forms.gle/6M7g4y92WyEk1QCj6 квиз 2] || 14 октября 23:59 | + | | 2 октября || регрессия, аугментация || [https://www.youtube.com/watch?v=42JeQ_YxAOg&feature=youtu.be youtube] || [https://github.com/vmkhlv/hse_compling_and_it/tree/master/week_04 github] || [https://forms.gle/6M7g4y92WyEk1QCj6 квиз 2] || 14 октября 23:59 || -- |
+ | |- | ||
+ | | 9 октября || переобучение, кросс-валидация|| [https://www.youtube.com/watch?v=xHZtS4gc7NM&feature=youtu.be youtube] || [https://github.com/vmkhlv/hse_compling_and_it/tree/master/week_05 github] || [https://docs.google.com/forms/d/e/1FAIpQLScDfK3Pr_haGWUDC052lFFEW4yFE5uFs2BNwDyuA8z__RR2cQ/viewform дз 4] || 25 октября 23:59 || -- | ||
+ | |- | ||
+ | | 15 октября || MLP (перцептрон), forward pass|| [https://www.youtube.com/watch?v=4BSupItpCnU&feature=youtu.be youtube]|| -- || -- || -- || -- | ||
+ | |- | ||
+ | | 11 ноября || MLP (перцептрон), backward pass|| [https://www.youtube.com/watch?v=85hFCYYTsdI&feature=youtu.be youtube] || [https://github.com/vmkhlv/hse_compling_and_it/tree/master/week_06-07 github] || [https://docs.google.com/forms/d/e/1FAIpQLSezm8SxeEK3iZ9vLEPgjZRHOw9rFVgAdKK0fQKH7i06WejTyA/viewform дз 5] || 20 декабря 23:59 || 3 января 23:59 | ||
+ | |- | ||
+ | | 17,19 ноября || эмбеддинги|| [https://youtu.be/jLmHkgX3TXc youtube] || [https://github.com/vmkhlv/hse_compling_and_it/tree/master/week_08-09 github] || [https://docs.google.com/forms/d/e/1FAIpQLSdYtF6zYliPAllxsxAtc4FRKVVwRbfYiPfTdeYfvSEf8RxfBQ/viewform квиз 3] || 6 декабря 23:59 || 20 декабря 23:59 | ||
+ | |- | ||
+ | | 25,26 ноября || эмбеддинги продолжение || [https://www.youtube.com/watch?v=JVgkH00J7yU&feature=youtu.be youtube]|| [https://github.com/vmkhlv/hse_compling_and_it/tree/master/week_08-09 github] || -- || -- || -- | ||
+ | |- | ||
+ | | 26,27 ноября || CNN, Keras intro || [https://www.youtube.com/watch?v=wzRNy88k8yE&feature=youtu.be youtube] || [https://github.com/vmkhlv/hse_compling_and_it/tree/master/week_10 github] || -- || -- || -- | ||
+ | |- | ||
+ | | 1,3 декабря || RNN forward pass, computational efficiency|| [https://www.youtube.com/watch?v=Tdy1dQ-Bevg&feature=youtu.be youtube] [ youtube2]|| -- || [https://forms.gle/MBoQGb8QQxbMXrQV6 квиз 4] || 16 декабря 23:59 || 30 декабря 23:59 | ||
+ | |- | ||
+ | | 8,10 декабря || RNN backprop|| [ youtube] || -- || -- || -- || -- | ||
+ | |- | ||
+ | | 15,17 декабря || CharCNN+biLSTM Keras || [https://youtu.be/KELOC607qPs youtube] || [https://github.com/vmkhlv/hse_compling_and_it/tree/master/week_12 github] || [https://docs.google.com/forms/d/e/1FAIpQLSco_qu6ndhrxg9bY_Zknd_hY1S0Bl3y9ejaek9vQXBSIyMWOw/viewform дз 6] || 7 февраля 23:59 || 21 февраля 23:59 | ||
+ | |- | ||
+ | | 13 января || разбор контрольной || [https://www.youtube.com/watch?v=XxjPS8N1KJQ&feature=youtu.be youtube] || -- || -- || -- || -- | ||
+ | |- | ||
+ | | 20,21 января || Torch intro || [https://www.youtube.com/watch?v=iEXRXAEsUm8&feature=youtu.be youtube] || [https://github.com/vmkhlv/hse_compling_and_it/tree/master/week_13 github] || -- || -- || -- | ||
+ | |- | ||
+ | | 27,28 января || Sequence tagging, LSTM. Torch || [https://www.youtube.com/watch?v=nq6KFF81kRc&feature=youtu.be youtube] || -- || -- || -- || -- | ||
+ | |- | ||
+ | | 11 февраля || механизм внимания || [https://www.youtube.com/watch?v=GUCCK7ORQx4 youtube] || -- || -- || -- || -- | ||
+ | |- | ||
+ | | 20 февраля || семинар по torch, keras || [https://www.youtube.com/watch?v=HLykCi7dnvg&feature=youtu.be youtube] || -- || -- || -- || -- | ||
+ | |- | ||
+ | | 4 марта || ELMO || [https://www.youtube.com/watch?v=jRICKCBAPxk&feature=youtu.be youtube] || -- || -- || -- || -- | ||
|- | |- | ||
− | | | + | | 5 марта || BERT intro|| [https://www.youtube.com/watch?v=q-RpBnNb5J0 youtube] || -- || -- || -- || -- |
|- | |- | ||
− | | | + | | 11,12 марта || Distant supervision (базы знаний + извлечение отношений)|| [https://www.youtube.com/watch?v=5RjSYoiu3NU youtube] || [https://github.com/vmkhlv/hse_compling_and_it/tree/master/week%2017 github] || -- || -- || -- |
|- | |- | ||
− | | | + | | 12,17 марта || архитектура Transformer || [https://www.youtube.com/watch?v=Vo0Kf2CJsMw youtube] || -- || -- || -- || -- |
|- | |- | ||
− | | | + | | 18 марта || BERT how to || [https://www.youtube.com/watch?v=GOEkwrR79nA youtube] || [https://github.com/vmkhlv/hse_compling_and_it/tree/master/week%2018 github] || -- || -- || -- |
|- | |- | ||
− | | | + | | 19 марта || оценка моделей, графы в NLP || [https://www.youtube.com/watch?v=bIEbk4CzxxQ youtube] || [https://github.com/vmkhlv/hse_compling_and_it/tree/master/week_17-18 github] || -- || -- || -- |
|- | |- | ||
− | |||
|} | |} |
Текущая версия на 23:30, 24 марта 2021
Содержание
[убрать]О курсе
Курс читается для бакалавров 4-го курса ФГН в рамках программы "Фундаментальная и компьютерная лингвистика" в 1-3 модулях.
Преподаватели:
- блок “Информационный поиск“:
Дроздова Ксения Андреевна (Telegram )
- блок “Компьютерная лингвистика“:
Олег Сериков (Почта, Telegram ), Мария Пономарева (Почта, Telegram ), Влад Михайлов (Почта, Telegram )
Ассистенты: Кирилл Коновалов(Почта, Telegram ), Дарья Самсонова(Почта, Telegram )
Содержание учебной дисциплины
- Блок “Информационный поиск“
- Введение в информационный поиск, булев поиск, обратный индекс, Okapi BM25, семантический поиск, векторные модели, модель выделения корня слова, основанная на RNN, логирование, добавление в поисковик
- Блок “Компьютерная лингвистика“
- Предобработка данных
- Базовые понятия машинного обучения, алгоритмы машинного обучения для задач классификации, кластеризации и регрессии
- Избранные главы математики для машинного обучения
- FFN, CNN, RNN, LSTM
- Sequence-to-sequence, Sequence Tagging, Language Modeling
- Статические эмбеддинги (Word2Vec, FastText)
- Контекстуальные эмбеддинги (BERT, ELMo)
Материалы курса:
дата занятия | тема | видео | материалы | ссылка на дз | дедлайн | последний дедлайн |
---|---|---|---|---|---|---|
11 сентября | подготовка данных | youtube | github | квиз 1 | 23 сентября 23:59 | -- |
17 сентября | векторизация текстовых данных | youtube | github | дз 2 | 7 октября 23:59 | -- |
25 сентября | классификация | youtube | github | дз 3 | 11 октября 23:59 | -- |
2 октября | регрессия, аугментация | youtube | github | квиз 2 | 14 октября 23:59 | -- |
9 октября | переобучение, кросс-валидация | youtube | github | дз 4 | 25 октября 23:59 | -- |
15 октября | MLP (перцептрон), forward pass | youtube | -- | -- | -- | -- |
11 ноября | MLP (перцептрон), backward pass | youtube | github | дз 5 | 20 декабря 23:59 | 3 января 23:59 |
17,19 ноября | эмбеддинги | youtube | github | квиз 3 | 6 декабря 23:59 | 20 декабря 23:59 |
25,26 ноября | эмбеддинги продолжение | youtube | github | -- | -- | -- |
26,27 ноября | CNN, Keras intro | youtube | github | -- | -- | -- |
1,3 декабря | RNN forward pass, computational efficiency | youtube [ youtube2] | -- | квиз 4 | 16 декабря 23:59 | 30 декабря 23:59 |
8,10 декабря | RNN backprop | [ youtube] | -- | -- | -- | -- |
15,17 декабря | CharCNN+biLSTM Keras | youtube | github | дз 6 | 7 февраля 23:59 | 21 февраля 23:59 |
13 января | разбор контрольной | youtube | -- | -- | -- | -- |
20,21 января | Torch intro | youtube | github | -- | -- | -- |
27,28 января | Sequence tagging, LSTM. Torch | youtube | -- | -- | -- | -- |
11 февраля | механизм внимания | youtube | -- | -- | -- | -- |
20 февраля | семинар по torch, keras | youtube | -- | -- | -- | -- |
4 марта | ELMO | youtube | -- | -- | -- | -- |
5 марта | BERT intro | youtube | -- | -- | -- | -- |
11,12 марта | Distant supervision (базы знаний + извлечение отношений) | youtube | github | -- | -- | -- |
12,17 марта | архитектура Transformer | youtube | -- | -- | -- | -- |
18 марта | BERT how to | youtube | github | -- | -- | -- |
19 марта | оценка моделей, графы в NLP | youtube | github | -- | -- | -- |
Формула оценки
Промежуточная аттестация (1 модуль)
0.5 * Блок “Информационный поиск” + 0.5 * Блок “Компьютерная лингвистика”:
Блок “Информационный поиск”: 0.7 * Домашние задания + 0.3 * Экзамен (Модуль 1)
Блок “Компьютерная лингвистика”: 0.8 * Домашние задания + 0.2 * Тесты
Накопленная оценка (Модуль 2-3):
0.7 * Домашние задания (Модуль 2-3) + 0.3 * Тесты (Модуль 2-3)
Итоговая аттестация:
0.3 * (Промежуточная аттестация (1 модуль)) + 0.3 * (Накопленная оценка (Модуль 2-3)) + 0.2 * Промежуточный контроль (Модуль 2) + 0.2 * Экзамен (Модуль 3)
Рекомендованная литература
- Daniel Jurafsky & James H. Martin. Speech and Language Processing: An introduction to natural language processing, computational linguistics, and speech recognition. Third Edition. https://web.stanford.edu/~jurafsky/slp3/
- Николаев И.С., Митренина О.В., Ландо Т.М. (ред.) Прикладная и компьютерная лингвистика. Изд 2. URSS. 2017. 320 с.
- Steven Bird, Ewan Klein, Edward Loper. Natural Language Processing with Python. – Analyzing Text with the Natural Language Toolkit. https://www.nltk.org/book/
- Christopher D. Manning & Hinrich Schütze. Foundations of Statistical Natural Language Processing. MIT Press, 1999.
- Yoav Goldberg. Neural Network Methods for Natural Language Processing (Synthesis Lectures on Human Language Technologies). Edited by Graeme Hirst. Morgan & Claypool 2017
- Cборники конференций COLING, ACL, EACL, LREC, EMNLP, NAACL, "Диалог" последних лет