Программирование и компьютерные инструменты лингвистического исследования
Материал из Wiki - Факультет компьютерных наук
Версия от 16:23, 23 августа 2018; Eoershova (обсуждение | вклад)
Содержание
О курсе
Преподаватели: Борис Орехов (Почта), Константин Маланчев (Почта), Никита Сапунов (Почта)
Ассистенты: Бориса Валерьевича: Мария Маслова (Почта, Telegram )
Константина Леонидовича: Алина Смирнова (Почта, Telegram ), Елизавета Ершова (Почта, VK )
Материалы курса
Ссылка на курс: https://pykili.github.io/home/
Программа курса: https://www.hse.ru/edu/courses/214343330
Правила выставления оценок
итоговая оценка = 0.65*накопленная + 0.35*экзамен
накопленная оценка = (0.35*контрольные'+0.3*домашние)/0.65+0.1*бонусные
- Всё в курсе оценивается по 10-балльной шкале.
- Если оценка складывается из нескольких работ, то итоговая оценка всегда нормируется на их количество
- Дедлайн для отправки домашнего задания индивидуален для каждой группы, и, как правило, наступает в ночь перед следующим семинаром
- Кормен. Алгоритмы: построение и анализ
- Bishop. Pattern Recognition and Machine Learning
- Jurafsky. Speech and Language Processing
- Barber. Bayesian Reasoning and Machine Learning
Программные средства
- редактор кода sublime text / notepad++ / PyCharm
- jupyter notebook
- numpy, scipy, pandas, matplotlib, seaborn, plotly, scikit-learn, gensim, xgboost
Правила сдачи домашних заданий
Домашние задания сдаются по умолчанию в репозиториях, указанных в форме (пожалуйста, пройдите этот опрос)
!!!
- Соблюдайте именование каталогов, классов и сигнатур функций! В противном случае автотесты их не подцепят и ваше решение не будет засчитано.
- Если явно не сказано, то в скрипте должен присутствовать только код класса/функции, без демонстрации их вызовов с какими либо аргументами.
- Если явно не сказано, в репозиторий вы грузите скрипты с раширением *.py или ноутбуки *.ipynb. (Но никак не архивы)
- Опоздание считается по последнему сданному заданию в домашней работе
Оценки за домашние задания
Экзамен
Экзамен проходит в письменной форме и сотоит из 3 частей
- Решение задачи машинного обучения на ноутбуке
- Необходимые библиотеки numpy, scipy, pandas, scikit-learn, nltk. Проверьте что они у вас стоят, и не слишком старой версии.
- Задачи по мотивам домашних работ + обработка текстовых данных.
- Вопрос по теории.
- Написать формулы где они есть.
- вопрос по применению теории к решению практических задач
- По мотивам теоретических вопросов
- e.g. Каким требованиям должна удовлетворять метрика качества, чтобы ее напрямую можно было оптимизировать с помощью SGD?
Дополнительные материалы для подготовки:
- курс Евгения Соколова по машинному обучению на ФКН
- Peter Flatch. Machine Learning
- Bishop. Pattern Recognition and Machine Learning
- Scikit-learn tutorials and User guide
- Hidden Markov Models Fundamentals
Семинары
№ | Тема семинара | презентация | материалы семинара | домашнее задание | дедлайн |
---|---|---|---|---|---|
1 | Объекто-ориентированное программирование | notebook | Assignment 1 | 12.09.17 12:00 | |
2 | Паттерны проектирования & web mining, part 1 | notebooks | Assignment 2 | 17.10.17 12:00 | |
3 | Тестирование и профилирование программ | notebooks | Assignment 3 | 17.10.17 12:00 | |
4 | Алгоритм Рабина-Карпа | notebooks | Assignment 4 | 10.10.17 12:00 | |
5 | Scientific libraries: Numpy, scipy, matplotlib | notebooks | |||
6 | Scientific libraries: pandas, plotly | notebooks | |||
7 | Linear Regression | notes and Assignment 5 | 18.10.17 12:00 | ||
8 | Regularization in linear models | ||||
9 | Classification with linear models | data | Assignment 6 | 11.11.17 12:00 | |
10 | SVM | ||||
11 | Word embeddings | notebook datasets | Assignment 7 Assignment 8 | 3.12.17 12:00 | |
12 | Decision trees. Random Forest | notebook | |||
13 | Boosting | notebook | |||
14 | Dimension reduction. PCA, SVD | notebook | |||
15 | Clustering. Kmeans, DBSCAN, Agglomerative clustering | notebook | data Assignment 9 | 22.12.2017 12.00 | |
16 | Topic modeing | notebook | Assignment 10 | 24.01.2018 12.00 | |
17 | Hidden Markov Models | ||||
18 | Hidden Markov Models(continued). Feedforward Neural Networks | notebooks | Assignment 11 | 25.02.2018 12.00 | |
19 | Training Neural Networks. Convolutional and recurrent NN for text classification and language modeling | notebooks | |||
20 | Basic seq2seq models applied to machine translation | notebooks |