Машинное обучение на матфаке 2021 — различия между версиями
Строка 81: | Строка 81: | ||
| 15 || 29 апреля || Знакомство с unsupervised learning. Алгоритмы кластеризации: K-means, спектральная кластеризация, иерархическая кластеризация. Разделение гауссовых смесей, EM-алгоритм. || [https://youtu.be/xpYbADpXlwQ видео] || | | 15 || 29 апреля || Знакомство с unsupervised learning. Алгоритмы кластеризации: K-means, спектральная кластеризация, иерархическая кластеризация. Разделение гауссовых смесей, EM-алгоритм. || [https://youtu.be/xpYbADpXlwQ видео] || | ||
|- | |- | ||
− | | 16 || 13 мая || SVD-разложение и метод главных компонент || || | + | | 16 || 13 мая || SVD-разложение и метод главных компонент || [https://youtu.be/ucnEhbEjLoQ видео] || |
|- | |- | ||
| 17 || 20 мая || Применение матричных разложений в рекомендательных системах. Автокодировщики || || | | 17 || 20 мая || Применение матричных разложений в рекомендательных системах. Автокодировщики || || |
Версия 19:38, 26 мая 2021
Содержание
О курсе
Курс читается для студентов факультета математики ВШЭ в 3-4 модулях.
Лектор: Щуров Илья Валерьевич
Лекции проходят по четвергам в 11:10-12:30.
Полезные ссылки
Семинары
Группа | Преподаватель | Учебный ассистент | Расписание |
---|---|---|---|
1 | Руслан Хайдуров | Максим Бекетов | пятница 13:00-14:20 |
2 | Соня Дымченко | Павел Егоров | четверг 13:00-14:20 |
Система оценивания
Формула оценки
Результирующая оценка по дисциплине рассчитывается по формуле:
Oитог = 0.2 * Окр + 0.29 * Опрак дз + 0.29 * Отеор дз + 0.22 * Оэкз
Правила вычисления оценок
Оценка за практические/теоретические домашние задания вычисляется как сумма баллов по всем практическим/теоретическим домашним заданиям, переведенная в 10-балльную шкалу. Количество баллов за разные задания может различаться в зависимости от их сложности. Все промежуточные оценки (за домашние, контрольную и экзамен) могут быть не целыми и не округляются. Итоговая оценка округляется по стандартным правилам, оценка вида (k+1/2), где k — целое число округляется вверх.
Правила сдачи заданий
Если вы сдаёте работу позже срока, её оценка умножается на exp(-t / 86400), где t — число секунд, прошедшее с дедлайна. Иными словами, опоздать на пару секунд не страшно, но опоздав на сутки, вы поделите свой результат на e. Сдать после срока можно только один раз, а если вы сдали работу вовремя, досдать после срока какие-либо задачи уже нельзя. Это не касается соревнований: там есть жесткое время окончания соревнования, и после него уже ничего отправить нельзя.
Все письменные работы выполняются самостоятельно. Вам запрещено смотреть в чужие решения (в том числе в чужой код), до тех пор, пока вы не сделали и не сдали эту задачу сами. Это касается решений и кода, написанного вашими однокурсниками, написанного предшествующими поколениями или найденного где-либо ещё. Из этого, в частности, следует, что вам запрещено целенаправленно искать решение вашей задачи в интернете. (Хотя, конечно, вы можете использовать поиск в интернете, чтобы разобраться в том, как работают те или иные инструменты или как сделать конкретное действие, если это действие не является само по себе решением задачи.) Вам также запрещено показывать свои решения другим студентам. При обнаружении плагиата или иных нарушений академической этики оценки за соответствующее домашнее задание обнуляются всем задействованным в списывании студентам, а также подаётся докладная записка в деканат.
При наличии уважительной причины (предоставляется справка, подтвержденная учебным офисом) вес контрольной работы может быть перенесён на экзамен; также может быть перенесён дедлайн по домашнему заданию (за исключением соревнований). Для согласования обращаться к лектору.
Теоретические домашние задания можно сдавать в виде Jupyter Notebook (.ipynb; там поддерживаются формулы в LaTeX), в виде отдельных PDF-документов, набранных в LaTeX или с помощью любого другого инструмента, поддерживающего вёрстку формул, либо в виде аккуратного скана аккуратно написанного от руки решения, также в формате PDF. В случае, если решение написано неаккуратно с точки зрения проверяющего, работа может получить штраф в 5% от оценки, либо, если работа вызывает существенные трудности для чтения, отправлена на доработку без продления срока сдачи.
Новости курса
Лекции
№ | Дата | Название | Видео | Дополнительные материалы |
---|---|---|---|---|
1 | 14 января | Введение в ml, постановки задач, виды данных | видео | |
2 | 21 января | Статистическая теория принятия решений | видео | |
3 | 28 января | Шум, смещение, разброс | видео | |
4 | 4 февраля | Линейные модели | видео | |
5 | 11 февраля | Линейные модели (продолжение) | видео | |
6 | 18 февраля | Линейная и логистическая регрессии | видео | Конспекты Е. Соколова: Ещё о линейных регрессиях, логистическая регрессия |
7 | 25 февраля | Логистическая регрессия (продолжение) | видео | Конспекты Е. Соколова: логистическая регрессия, многоклассовая классификация |
8 | 4 марта | SVM и решающие деревья | видео | Конспекты Е. Соколова: метод опорных векторов (см. часть 2), решающие деревья |
9 | 11 марта | Решающие леса | видео | Конспекты Е. Соколова решающие леса |
10 | 18 марта | Градиентный бустинг | видео | Конспекты Е. Соколова градиентный бустинг (мы не обсуждали AdaBoost) |
11 | 25 марта | Нейронные сети | видео | Конспекты Е. Соколова: Графы вычислений и элементы глубинного обучения. Дополнительный материал: теорема об универсальной аппроксимации (англ.), |
12 | 8 апреля | Сверточные нейронные сети | видео | Конспекты Е. Соколова: Графы вычислений и элементы глубинного обучения, дополнительный материал: convolutional networks (англ.) |
13 | 15 апреля | Рекурентные нейронные сети | видео | Understanding LSTM Networks |
14 | 22 апреля | Продвинутая обработка естественного языка | видео | |
15 | 29 апреля | Знакомство с unsupervised learning. Алгоритмы кластеризации: K-means, спектральная кластеризация, иерархическая кластеризация. Разделение гауссовых смесей, EM-алгоритм. | видео | |
16 | 13 мая | SVD-разложение и метод главных компонент | видео | |
17 | 20 мая | Применение матричных разложений в рекомендательных системах. Автокодировщики |
Семинары
№ | Дата | Название | Материалы | Видео |
---|---|---|---|---|
1 | 14/15 января | Введение в numpy, pandas, matplotlib | github colab | семинар Сони Дымченко |
2 | 21/22 января | Алгоритм K ближайших соседей (k-NN) | github nbviewer colab | семинар Сони Дымченко, семинар Ильи Щурова |
3 | 28/29 января | Разложение ошибки на смещение и разброс, кросс-валидация, проклятие размерности, KNN из коробки (продолжение) | github | семинар Руслана Хайдурова |
4 | 4/5 февраля | Линейная регрессия, градиентный спуск, метрика качества R^2 | github colab | семинар Сони Дымченко |
5 | 11/12 февраля | Регуляризация линейной регрессии, отбор признаков | github | семинар Руслана Хайдурова |
6 | 18/19 февраля | Логистическая регрессия, метрики для задачи классификации (precision, recall, f-measure, ROC/PR-AUC), создание полиномиальных признаков | colab github | семинар Руслана Хайдурова |
7 | 25/26 февраля | Обработка текстов, лемматизация и стемминг, векторное представление текстов (BOW, TfIdf), обучение моделей классификации отзывов (практика) | github colab solved | семинар Сони Дымченко |
8 | 4/5 марта | Решающие деревья | github colab | семинар Руслана Хайдурова |
9 | 11/12 марта | Бэггинг, случайный лес | github colab | семинар Сони Дымченко |
10 | 18/19 марта | Градиентный бустинг | github colab | семинар Сони Дымченко |
11 | 25/26 марта | Знакомство с pytorch | .ipynb 2020 | семинар Руслана Хайдурова |
12 | 8/9 апреля | Продолжение работы с pytorch | ? | семинар Руслана Хайдурова |
13 | 15/16 апреля | Применение нейронных сетей для работы с изображениями | .ipynb 2020 | семинар Сони Дымченко |
14 | 22/23 апреля | Разбор мид-терма | видео разбора | |
15 | 29/30 апреля | Трансформеры и методы работы с текстом | ? | NLP 2020 семинар Руслана Хайдурова |
16 | 13/14 мая | Матричные разложения и приложения, SVD, PCA, LSA, t-SNE | .ipynb 2020 | Видео 2020 [? Видео 2021] |
17 | 20/21 мая | Кластеризация | .ipynb 2020 | Видео 2020 [ ? Видео 2021] |
Как корректно скачать файл с расширением .ipynb с GitHub?
Домашние задания
Домашние задания сдаются в энитаск (ссылка выше). Инвайт: g1laCLh
№ | тема и условие | тип | дата выдачи | дедлайн | комментарий |
---|---|---|---|---|---|
0 | Теория вероятностей: условие | теоретическое | 14.01 | 20.01 23:59:59 | |
1 | Бибилотеки Python: numpy, pandas, matplotlib: условие | практическое | 14.01 | 24.01 23:59:59 | |
2 | Оценки, ошибки и градиентный спуск: nbviewer github pdf | теоретическое | 8.02 | 15.02 23:59:59 | |
3 | Метод k ближайших соседей: nbviewer github | практическое | 14.02 | 28.02 23:59:59 | |
4 | Вокруг линейных моделей: ipynb pdf | теоретическое | 8.03 | 18.03 23:59:59 | |
5 | Линейные модели: ipynb nbviewer | практическое | 19.03 | Часть 1: 28.03 23:59:59, Часть 2: 13.04 23:59:59 |
Контрольные работы
Midterm
Промежуточная контрольная работа (мидтерм) состоится в четверг, 1 апреля. Она захватит материал первых 9 занятий: лекций, семинаров и релевантных домашних заданий.
Final
Полезные материалы
Базовые учебники
- Hastie T., Tibshirani R, Friedman J. The Elements of Statistical Learning (2nd edition). Springer, 2009.
- Bishop C. M. Pattern Recognition and Machine Learning. Springer, 2006.
Дополнительная литература
- Шарден Б., Массарон Л., Боскетти А. Крупномасштабное машинное обучение вместе с Python, Издательство "ДМК Пресс", 2018.
- Ian Goodfellow and Yoshua Bengio and Aaron Courville, Deep Learning, MIT Press, 2016.
- Mohri M., Rostamizadeh A., Talwalkar A. Foundations of Machine Learning. MIT Press, 2012.
- Murphy K. Machine Learning: A Probabilistic Perspective. MIT Press, 2012.
- Mohammed J. Zaki, Wagner Meira Jr. Data Mining and Analysis. Fundamental Concepts and Algorithms. Cambridge University Press, 2014.
Разные хорошие ссылки
- Об условных вероятностях.
- Mathematics for Machine Learning — книга с математическим введением в машинное обучение. Вам могут быть особенно интересно главы про теорию вероятностей.