Компьютерная лингвистика и информационные технологии 2020 — различия между версиями

Материал из Wiki - Факультет компьютерных наук
Перейти к: навигация, поиск
(оценка)
(таблица с материалами)
Строка 42: Строка 42:
 
[https://github.com/vmkhlv/hse_compling_and_it github]
 
[https://github.com/vmkhlv/hse_compling_and_it github]
  
 +
{| class="wikitable"
 +
|-
 +
! дата занятия !! тема !! ссылка !! ссылка на дз !! дедлайн
 +
|-
 +
| 11 сентября || подготовка данных || [https://youtu.be/6dI0GGguFlI youtube] || [https://forms.gle/Y8LW36CZo5MF83SN7 квиз 1]
 +
 +
[https://forms.gle/37E9AztXEqSN26LC7 дз 1]
 +
|| 23 сентября 23:59
 +
|-
 +
| 17 сентября || векторизация текстовых данных || [https://youtu.be/KyxHC6cuasM youtube] || [https://docs.google.com/forms/d/e/1FAIpQLSeNkNDCqg-ZV3kGuq64hr5dPCYb9FyO-vfVGY0tTHoQQPw7Vg/viewform  дз 2] || 7 октября 23:59
 +
|-
 +
| 25 сентября || классификация  || [https://youtu.be/BaEMtU3D2-c youtube] || [https://forms.gle/tcimXM5sw7dmvbZm6 дз 3] || 11 октября 23:59
 +
|-
 +
| 2 октября || регрессия || будет ссылка || [https://forms.gle/6M7g4y92WyEk1QCj6 квиз 2] || 14 октября 23:59
 +
 +
|}
  
 
==Формула оценки==
 
==Формула оценки==

Версия 16:33, 6 октября 2020

О курсе

Курс читается для бакалавров 4-го курса ФГН в рамках программы "Фундаментальная и компьютерная лингвистика" в 1-3 модулях.


Преподаватели:

  • блок “Информационный поиск“:

Дроздова Ксения Андреевна (Telegram )


  • блок “Компьютерная лингвистика“:

Олег Сериков (Почта, Telegram ), Мария Пономарева (Почта, Telegram ), Влад Михайлов (Почта, Telegram )


Ассистенты: Кирилл Коновалов(Почта, Telegram ), Дарья Самсонова(Почта, Telegram )


Содержание учебной дисциплины

  • Блок “Информационный поиск“
    • Введение в информационный поиск, булев поиск, обратный индекс, Okapi BM25, семантический поиск, векторные модели, модель выделения корня слова, основанная на RNN, логирование, добавление в поисковик
  • Блок “Компьютерная лингвистика“
    • Предобработка данных
    • Базовые понятия машинного обучения, алгоритмы машинного обучения для задач классификации, кластеризации и регрессии
    • Избранные главы математики для машинного обучения
    • FFN, CNN, RNN, LSTM
    • Sequence-to-sequence, Sequence Tagging, Language Modeling
    • Статические эмбеддинги (Word2Vec, FastText)
    • Контекстуальные эмбеддинги (BERT, ELMo)


Материалы курса:

github

дата занятия тема ссылка ссылка на дз дедлайн
11 сентября подготовка данных youtube квиз 1

дз 1

23 сентября 23:59
17 сентября векторизация текстовых данных youtube дз 2 7 октября 23:59
25 сентября классификация youtube дз 3 11 октября 23:59
2 октября регрессия будет ссылка квиз 2 14 октября 23:59

Формула оценки

Промежуточная аттестация (1 модуль)

0.5 * Блок “Информационный поиск” + 0.5 * Блок “Компьютерная лингвистика”:

Блок “Информационный поиск”: 0.7 * Домашние задания + 0.3 * Экзамен (Модуль 1)

Блок “Компьютерная лингвистика”: 0.8 * Домашние задания + 0.2 * Тесты


Накопленная оценка (Модуль 2-3):

0.7 * Домашние задания (Модуль 2-3) + 0.3 * Тесты (Модуль 2-3)


Итоговая аттестация: 0.3 * (Промежуточная аттестация (1 модуль)) + 0.3 * (Накопленная оценка (Модуль 2-3)) + 0.2 * Промежуточный контроль (Модуль 2) + 0.2 * Экзамен (Модуль 3)


Рекомендованная литература

  1. Daniel Jurafsky & James H. Martin. Speech and Language Processing: An introduction to natural language processing, computational linguistics, and speech recognition. Third Edition. https://web.stanford.edu/~jurafsky/slp3/
  2. Николаев И.С., Митренина О.В., Ландо Т.М. (ред.) Прикладная и компьютерная лингвистика. Изд 2. URSS. 2017. 320 с.
  3. Steven Bird, Ewan Klein, Edward Loper. Natural Language Processing with Python. – Analyzing Text with the Natural Language Toolkit. https://www.nltk.org/book/
  4. Christopher D. Manning & Hinrich Schütze. Foundations of Statistical Natural Language Processing. MIT Press, 1999.
  5. Yoav Goldberg. Neural Network Methods for Natural Language Processing (Synthesis Lectures on Human Language Technologies). Edited by Graeme Hirst. Morgan & Claypool 2017
  6. Cборники конференций COLING, ACL, EACL, LREC, EMNLP, NAACL, "Диалог" последних лет