Компьютерная лингвистика и информационные технологии — различия между версиями

Материал из Wiki - Факультет компьютерных наук
Перейти к: навигация, поиск
(Новая страница: «== О курсе == Курс читается для студентов лингвистов 4-го курса факультета гуманитарных на…»)
 
(Семинары)
Строка 73: Строка 73:
 
! № !! Тема семинара !! материалы семинара !! домашнее задание !! дедлайн
 
! № !! Тема семинара !! материалы семинара !! домашнее задание !! дедлайн
 
|-
 
|-
| 1 || Теория алгоритмов. Фильтр Блума. Алгоритм Рабина-Карпа || [https://github.com/thedenaas/hse_seminars_2018/tree/master/seminar_1 seminar_1] || [https://github.com/thedenaas/hse_seminars_2018/tree/master/seminar_1 assignment_1]  || 18.09.2018 12:00
+
| 1 || Алгоритмы для обработки текста || ||   ||  
 
|-
 
|-
| 2 || Тестирование программ. Визуализация. Избранные главы теории вероятностей и линейной алгебры. || [https://github.com/thedenaas/hse_seminars_2018/tree/master/seminar_2 seminar_2] ||  ||  
+
| 2 || Избранные главы математики для машинного обучения || ||  ||  
 
|-
 
|-
| 3 || Основные понятия машинного обучения || [https://github.com/thedenaas/hse_seminars_2018/tree/master/seminar_3 seminar_3] || [https://github.com/thedenaas/hse_seminars_2018/tree/master/seminar_3 assignment]  || 16.10.2018 12:00
+
| 3 || Базовые понятия машинного обучения || ||   ||  
 
|-
 
|-
| 4 || Регуляризация в линейных моделях || [https://github.com/thedenaas/hse_seminars_2018/tree/master/seminar_4 seminar_4] || ||
+
| 4 || Регуляризация в линейных моделях || ||   ||  
 
|-
 
|-
| 5 || Линейный модели для классификации || [https://github.com/thedenaas/hse_seminars_2018/tree/master/seminar_5 seminar_5] || [https://github.com/thedenaas/hse_seminars_2018/tree/master/seminar_5 assignment]  || 16.11.2018 23:59
+
| 5 || Линейный модели классификации|| ||   ||  
 
|-
 
|-
| 6 || Decision Trees. Ensembles. ||  [https://github.com/thedenaas/hse_seminars_2018/tree/master/seminar_6 seminar_6] || [https://github.com/thedenaas/hse_seminars_2018/tree/master/seminar_6 assignment]  || 30.11.2018 23:59
+
| 6 || Решающие деревья и ансамбли. ||  ||   ||  
 
|-
 
|-
| 7 || Feed Forward Neural Networks || [https://github.com/thedenaas/hse_seminars_2018/tree/master/seminar_7 seminar_7] || ||
+
| 7 || Feed Forward Neural Networks ||  ||   ||  
 
|-
 
|-
| 8 || Dimension reduction. Manifold Learning ||   [https://github.com/thedenaas/hse_seminars_2018/tree/master/seminar_8 seminar_8] || ||
+
| 8 || Distributed representations. CNN || ||   ||  
 
|-
 
|-
| 9 || Word2Vec. Glove. Convolutional NN ||   [https://github.com/thedenaas/hse_seminars_2018/tree/master/seminar_9 seminar_9] || [https://github.com/thedenaas/hse_seminars_2018/tree/master/seminar_9 assignment] || 29.01.2019 23.59
+
| 9 || RNN || ||   ||  
 
|-
 
|-
| 10 || RNN ||   [https://github.com/thedenaas/hse_seminars_2018/tree/master/seminar_10 seminar_10] || [https://github.com/thedenaas/hse_seminars_2018/tree/master/seminar_10 assignment] || 12.02.2019 23.59
+
| 10 || Seq2seq|| ||   ||  
 
|-
 
|-
| 11 || Seq2Seq ||   [https://github.com/thedenaas/hse_seminars_2018/tree/master/seminar_11 seminar_11] || [https://github.com/thedenaas/hse_seminars_2018/tree/master/seminar_11 assignment] || 4.03.2019 23.59
+
| 11 || Transfer learning || ||   ||  
 
|-
 
|-
| 12 || Subword Embeddings, Metric Learning ||   [https://github.com/thedenaas/hse_seminars_2018/tree/master/seminar_12 seminar_12] || [https://github.com/thedenaas/hse_seminars_2018/tree/master/seminar_12 assignment] || 19.03.2019 23.59
+
| 12 || Information retrieval || ||   ||  
 
|-
 
|-
| 13 || Topic Modeling. Hidden Markov Models ||   [https://github.com/thedenaas/hse_seminars_2018/tree/master/seminar_13 seminar_13] || [https://github.com/thedenaas/hse_seminars_2018/tree/master/seminar_13 assignment] || 19.03.2019 23.59
+
| 13 || Topic Modeling || ||   ||  
 
|-
 
|-
 +
 
|}
 
|}

Версия 11:45, 30 августа 2019

О курсе

Курс читается для студентов лингвистов 4-го курса факультета гуманитарных наук.

Проводится с 2017 года.

Преподаватель: Денис Литвинов (Почта, Telegram )

Ассистенты Азат Калмыков (Почта, Telegram ), Антон Ханаев (Почта, Telegram )


Правила выставления оценок

итоговая оценка = 0.7*накопленная + 0.3*экзамен

накопленная оценка — средняя по всем домашним заданиям.

  1. При вычислении накопленной оценки округление не производится
  2. Домашнее задание оценивается по 10-балльной шкале.
  3. В случае пропуска дедлайна за каждый пропущенный день снимается 0.5 балла в течении первых 6 дней. Затем, за каждый пропущенный день снимаются по 1 баллу.
  4. Дедлайны для каждой домашней работы указываются отдельно.
  5. В оценке домашнего задания оцениваются: работоспособность программы, использование изложенных средств и методов.
  6. При оценивании программы в первую очередь обращается внимание на то, насколько её работа соответствует требованиям, описанным в задании. Программа, не запускающаяся из-за синтаксических ошибок, не может получить оценку выше 4 баллов. Баллы могут сниматься, в частности, за неточное выполнение задания и отсутствие разбора случаев, из-за которых при исполнении программы может произойти ошибка. Так же оценивается оптимальность решенения (в смысле времени работы и потребляемой памяти). Во вторую очередь оценивается стиль кода.
  7. При обнаружении плагиата в домашнем или контрольном задании это задание получает оценку 0 баллов.
  8. Экзамен проводится в письменной форме.

Рекомендуемая литература

  1. Кормен. Алгоритмы: построение и анализ
  2. Bishop. Pattern Recognition and Machine Learning
  3. Christopher Manning. Foundations of Statistical Natural Language Processing


Программные средства

  1. редактор кода sublime text / notepad++ / PyCharm
  2. jupyter notebook
  3. numpy, scipy, pandas, matplotlib, seaborn, scikit-learn, gensim, lightgbm, pytorch


Правила сдачи домашних заданий

Домашние задания сдаются по умолчанию в репозиториях, указанных в форме (пожалуйста, пройдите этот опрос)

  1. Домашнее задание выполняется в jupyter notebook, если явно не указано иное.
  2. Не стоит выкладывать в репозиторий запакованные файлы.
  3. Соблюдайте именование каталогов, классов и сигнатур функций, если они явно указаны. В противном случае автотесты их не подцепят и ваше решение не будет засчитано.
  4. Опоздание считается по последнему сданному заданию в домашней работе

Оценки за домашние задания

оценки

Экзамен

Экзамен проходит в письменной форме и сотоит из 3 частей

  1. Решение задачи машинного обучения на ноутбуке
    1. Необходимые библиотеки numpy, scipy, pandas, scikit-learn, nltk. Проверьте что они у вас стоят, и не слишком старой версии.
    2. Задачи по мотивам домашних работ + обработка текстовых данных.
  2. Вопрос по теории.
    1. Написать формулы где они есть.
  3. вопрос по применению теории к решению практических задач
    1. По мотивам теоретических вопросов
    2. e.g. Каким требованиям должна удовлетворять метрика качества, чтобы ее напрямую можно было оптимизировать с помощью SGD?

вопросы к экзамену

Дополнительные материалы для подготовки:

  1. курс Евгения Соколова по машинному обучению на ФКН
  2. Peter Flatch. Machine Learning
  3. Bishop. Pattern Recognition and Machine Learning
  4. Scikit-learn tutorials and User guide
  5. Hidden Markov Models Fundamentals

Семинары

Тема семинара материалы семинара домашнее задание дедлайн
1 Алгоритмы для обработки текста
2 Избранные главы математики для машинного обучения
3 Базовые понятия машинного обучения
4 Регуляризация в линейных моделях
5 Линейный модели классификации
6 Решающие деревья и ансамбли.
7 Feed Forward Neural Networks
8 Distributed representations. CNN
9 RNN
10 Seq2seq
11 Transfer learning
12 Information retrieval
13 Topic Modeling