Машинное обучение на матфаке 2021 — различия между версиями

Материал из Wiki - Факультет компьютерных наук
Перейти к: навигация, поиск
(Лекции)
 
(не показано 36 промежуточных версии 4 участников)
Строка 49: Строка 49:
 
{| class="wikitable"
 
{| class="wikitable"
 
|-
 
|-
! № !! Дата !! Название !! Материалы
+
! № !! Дата !! Название !! Видео !! Дополнительные материалы
 
|-
 
|-
| 1 || 14 января  || Введение в ml, постановки задач, виды данных || [https://www.youtube.com/watch?v=COQFOm2tzTE&list=PLEwK9wdS5g0pq7ev-iMG9Vw8fWbld87Ic&index=2 видео]
+
| 1 || 14 января  || Введение в ml, постановки задач, виды данных || [https://www.youtube.com/watch?v=COQFOm2tzTE&list=PLEwK9wdS5g0pq7ev-iMG9Vw8fWbld87Ic&index=2 видео] ||
 
|-
 
|-
| 2 || 21 января || [http://math-info.hse.ru/math-ml/chapter/label/chap:3:els/ Статистическая теория принятия решений] || [https://www.youtube.com/watch?v=N79imD4BVZM видео]
+
| 2 || 21 января || [http://math-info.hse.ru/math-ml/chapter/label/chap:3:els/ Статистическая теория принятия решений] || [https://www.youtube.com/watch?v=N79imD4BVZM видео] ||
 
|-
 
|-
| 3 || 28 января || [http://math-info.hse.ru/math-ml/chapter/label/chap:4:bias-variance/ Шум, смещение, разброс] || [https://youtu.be/C3P0PPQYsSs видео]
+
| 3 || 28 января || [http://math-info.hse.ru/math-ml/chapter/label/chap:4:bias-variance/ Шум, смещение, разброс] || [https://youtu.be/C3P0PPQYsSs видео] ||
 
|-
 
|-
| 4 || 4 февраля || [http://math-info.hse.ru/math-ml/chapter/label/chap:5:linear-reg/ Линейные модели] || [https://youtu.be/K5eVQXW7GhI видео]
+
| 4 || 4 февраля || [http://math-info.hse.ru/math-ml/chapter/label/chap:5:linear-reg/ Линейные модели] || [https://youtu.be/K5eVQXW7GhI видео] ||
 
|-
 
|-
| 5 || 11 февраля || [http://math-info.hse.ru/math-ml/chapter/label/chap:6:linear-reg2/ Линейные модели (продолжение)] || [https://youtu.be/lDdZZr8ImBM видео]
+
| 5 || 11 февраля || [http://math-info.hse.ru/math-ml/chapter/label/chap:6:linear-reg2/ Линейные модели (продолжение)] || [https://youtu.be/lDdZZr8ImBM видео] ||
 
|-
 
|-
| 6 || 18 февраля || Линейная и логистическая регрессии || [https://youtu.be/mFrFDXqkcOo видео]
+
| 6 || 18 февраля || Линейная и логистическая регрессии || [https://youtu.be/mFrFDXqkcOo видео] || Конспекты Е. Соколова: [https://github.com/esokolov/ml-course-hse/blob/master/2017-fall/lecture-notes/lecture03-linregr.pdf Ещё о линейных регрессиях], [https://github.com/esokolov/ml-course-hse/blob/master/2017-fall/lecture-notes/lecture05-linclass.pdf логистическая регрессия]
 
|-
 
|-
| 7 || 25 февраля || Логистическая регрессия (продолжение) || [https://youtu.be/yHLtkTJs4Vk видео]
+
| 7 || 25 февраля || Логистическая регрессия (продолжение) || [https://youtu.be/yHLtkTJs4Vk видео] || Конспекты Е. Соколова: [https://github.com/esokolov/ml-course-hse/blob/master/2017-fall/lecture-notes/lecture05-linclass.pdf логистическая регрессия], [https://github.com/esokolov/ml-course-hse/blob/master/2017-fall/lecture-notes/lecture06-linclass.pdf многоклассовая классификация]
 
|-
 
|-
| 8 || 4 марта || || [ видео]
+
| 8 || 4 марта || SVM и решающие деревья || [https://youtu.be/QBZSD7wUR_s видео] || Конспекты Е. Соколова:  [https://github.com/esokolov/ml-course-hse/blob/master/2017-fall/lecture-notes/lecture05-linclass.pdf метод опорных векторов] (см. часть 2), [https://github.com/esokolov/ml-course-hse/blob/master/2017-fall/lecture-notes/lecture07-trees.pdf решающие деревья]
 
|-
 
|-
| 9 || 11 марта || || [ видео]
+
| 9 || 11 марта || Решающие леса || [https://youtu.be/Yo2-qB7vqOo видео] || Конспекты Е. Соколова [https://github.com/esokolov/ml-course-hse/blob/master/2017-fall/lecture-notes/lecture08-ensembles.pdf решающие леса]
 +
|-
 +
| 10 || 18 марта || Градиентный бустинг || [https://youtu.be/gYTcMpNM2GU видео] || Конспекты Е. Соколова [https://github.com/esokolov/ml-course-hse/blob/master/2017-fall/lecture-notes/lecture09-ensembles.pdf градиентный бустинг] (мы не обсуждали AdaBoost)
 +
|-
 +
| 11 || 25 марта || Нейронные сети || [https://youtu.be/vd_QZaBWPUI видео] || Конспекты Е. Соколова: [https://github.com/esokolov/ml-course-hse/blob/master/2017-fall/lecture-notes/lecture11-dl.pdf Графы вычислений и элементы глубинного обучения]. Дополнительный материал: [http://neuralnetworksanddeeplearning.com/chap4.html теорема об универсальной аппроксимации] (англ.),
 +
|-
 +
| 12 || 8 апреля || Сверточные нейронные сети || [https://youtu.be/GCIdWzAUsmI видео] || Конспекты Е. Соколова: [https://github.com/esokolov/ml-course-hse/blob/master/2017-fall/lecture-notes/lecture11-dl.pdf Графы вычислений и элементы глубинного обучения], дополнительный материал: [http://cs231n.github.io/convolutional-networks/ convolutional networks] (англ.)
 +
|-
 +
| 13 || 15 апреля || Рекурентные нейронные сети || [https://youtu.be/-kxYP7a2pTA видео] || [https://colah.github.io/posts/2015-08-Understanding-LSTMs/ Understanding LSTM Networks]
 +
|-
 +
| 14 || 22 апреля || Продвинутая обработка естественного языка || [https://youtu.be/5wgwpKJsTh8 видео] ||
 +
|-
 +
| 15 || 29 апреля || Знакомство с unsupervised learning. Алгоритмы кластеризации: K-means, спектральная кластеризация, иерархическая кластеризация. Разделение гауссовых смесей, EM-алгоритм. || [https://youtu.be/xpYbADpXlwQ видео] ||
 +
|-
 +
| 16 || 13 мая || SVD-разложение и метод главных компонент || [https://youtu.be/ucnEhbEjLoQ видео] ||
 +
|-
 +
| 17 || 20 мая ||  Применение матричных разложений в рекомендательных системах. Автокодировщики || [https://youtu.be/1FwYdt9KuIM видео] ||
 
|}
 
|}
  
Строка 89: Строка 105:
 
| 7 || 25/26 февраля|| Обработка текстов, лемматизация и стемминг, векторное представление текстов (BOW, TfIdf), обучение моделей классификации отзывов (практика) || [https://github.com/ischurov/math-ml-2021-public/blob/main/sem07_texts/sem07_texts.ipynb github] [https://colab.research.google.com/drive/1mI3Ff7KN-t2okw4e5G2tlSUKXrv9xykz?usp=sharing colab] [https://colab.research.google.com/drive/1Ourraf7xhnMLxrWLsBZxEIyuzSG-hyHE?usp=sharing solved] || [https://youtu.be/tgu9JJw9cE0 семинар Сони Дымченко]
 
| 7 || 25/26 февраля|| Обработка текстов, лемматизация и стемминг, векторное представление текстов (BOW, TfIdf), обучение моделей классификации отзывов (практика) || [https://github.com/ischurov/math-ml-2021-public/blob/main/sem07_texts/sem07_texts.ipynb github] [https://colab.research.google.com/drive/1mI3Ff7KN-t2okw4e5G2tlSUKXrv9xykz?usp=sharing colab] [https://colab.research.google.com/drive/1Ourraf7xhnMLxrWLsBZxEIyuzSG-hyHE?usp=sharing solved] || [https://youtu.be/tgu9JJw9cE0 семинар Сони Дымченко]
 
|-
 
|-
| 8 ||  
+
| 8 || 4/5 марта || Решающие деревья || [https://github.com/ischurov/math-ml-2021-public/blob/main/sem08_trees/sem08_trees.ipynb github] [https://colab.research.google.com/github/ischurov/math-ml-2021-public/blob/main/sem08_trees/sem08_trees.ipynb colab]|| [https://youtu.be/rIcVRIQM9Ys семинар Руслана Хайдурова]
 +
|-
 +
|9 || 11/12 марта || Бэггинг, случайный лес || [https://github.com/ischurov/math-ml-2021-public/blob/main/sem09_ensembles/sem09_ensembles.ipynb github] [https://colab.research.google.com/drive/1_tnviReEMwceJRc7B-zAFbC9C6eoht88?usp=sharing colab]|| [https://youtu.be/sJkS8ffgXw4 семинар Сони Дымченко]
 +
|-
 +
|10 || 18/19 марта || Градиентный бустинг || [https://github.com/ischurov/math-ml-2021-public/blob/main/sem10_boosting/sem10_boosting.ipynb github] [https://colab.research.google.com/drive/16paCicj-aRy8CTEvQuhxN9OupPIHqut5?usp=sharing colab] || [https://youtu.be/7-Zjhx0GoX4 семинар Сони Дымченко]
 +
|-
 +
|11 || 25/26 марта || Знакомство с pytorch || [https://github.com/new-okaerinasai/math-ml-hse-2019/blob/master/sem12_pytorch_intro/sem12_pytorch_intro.ipynb .ipynb 2020] || [https://youtu.be/OHigG63NME0 семинар Руслана Хайдурова]
 +
|-
 +
|12 || 8/9 апреля || Продолжение работы с pytorch || ? || [https://youtu.be/H2qzNBeFanI семинар Руслана Хайдурова]
 +
|-
 +
|13 || 15/16 апреля || Применение нейронных сетей для работы с изображениями || [https://github.com/new-okaerinasai/math-ml-hse-2019/blob/master/sem13_images/sem13_images.ipynb .ipynb 2020]|| [https://youtu.be/0KwBYJBfdbU семинар Сони Дымченко]
 +
|-
 +
|14 || 22/23 апреля || Разбор мид-терма || || [https://youtu.be/UZ4pbNCmPGw видео разбора]
 +
|-
 +
|15 || 29/30 апреля || Трансформеры и методы работы с текстом || ? || [https://youtu.be/-cIqbTFDnaE NLP 2020] [https://youtu.be/s-Js8Fy-LNs семинар Руслана Хайдурова]
 +
|-
 +
| 16 || 13/14 мая || Матричные разложения и приложения, SVD, PCA, LSA, t-SNE || [https://github.com/new-okaerinasai/math-ml-hse-2019/blob/master/sem16_svd/sem16_svd.ipynb .ipynb 2020] || [https://youtu.be/F-HW0dlT7ks Видео 2020] [? Видео 2021]
 +
|-
 +
| 17 || 20/21 мая|| Кластеризация || [https://github.com/new-okaerinasai/math-ml-hse-2019/blob/master/sem15_clustering/sem15_clustering.ipynb .ipynb 2020]|| [https://youtu.be/d_izdlbBnfQ Видео 2020] [ ? Видео 2021]
 
|-
 
|-
|9 || 11/12 марта || Бэггинг, случайный лес. || [https://github.com/ischurov/math-ml-2021-public/blob/main/sem09_ensembles/sem09_ensembles.ipynb github] [https://colab.research.google.com/drive/1_tnviReEMwceJRc7B-zAFbC9C6eoht88?usp=sharing colab]||
 
 
|}
 
|}
  
Строка 134: Строка 167:
 
| 8.03
 
| 8.03
 
| 18.03 23:59:59
 
| 18.03 23:59:59
 +
|
 +
|-
 +
| 5
 +
| Линейные модели: [https://github.com/ischurov/math-ml-2021-public/blob/main/homeworks/hw_lab05.ipynb ipynb] [https://nbviewer.jupyter.org/github/ischurov/math-ml-2021-public/blob/main/homeworks/hw_lab05.ipynb nbviewer]
 +
| практическое
 +
| 19.03
 +
| Часть 1: 28.03 23:59:59, Часть 2: 13.04 23:59:59
 
|
 
|
 
|}
 
|}
 +
 +
== Контрольные работы ==
 +
=== Midterm ===
 +
Промежуточная контрольная работа (мидтерм) состоится в четверг, 1 апреля. Она захватит материал первых 9 занятий: лекций, семинаров и релевантных домашних заданий.
 +
 +
* [http://math-info.hse.ru/f/2018-19/math-ml/midterm.pdf Вариант 2018-19 учебного года]
 +
* [https://github.com/ischurov/math-ml-2021-public/blob/main/assessment/midterm-2020.pdf Вариант 2019-20 учебного года],
 +
** [https://youtu.be/iGQ518pCAEM Разбор] ([http://math-info.hse.ru/f/2020-21/math-ml/midterm2019-20.pdf вариант из разбора])
 +
 +
=== Final ===
 +
* [https://github.com/ischurov/math-ml-2021-public/blob/main/assessment/final2019.pdf Экзамен 2019]
 +
* [https://github.com/ischurov/math-ml-2021-public/blob/main/assessment/final2020.pdf Экзамен 2020]
  
 
== Полезные материалы ==
 
== Полезные материалы ==

Текущая версия на 19:39, 26 мая 2021

О курсе

Курс читается для студентов факультета математики ВШЭ в 3-4 модулях.

Лектор: Щуров Илья Валерьевич

Лекции проходят по четвергам в 11:10-12:30.

Полезные ссылки

Семинары

Группа Преподаватель Учебный ассистент Расписание
1 Руслан Хайдуров Максим Бекетов пятница 13:00-14:20
2 Соня Дымченко Павел Егоров четверг 13:00-14:20

Система оценивания

Формула оценки

Результирующая оценка по дисциплине рассчитывается по формуле:

Oитог = 0.2 * Окр + 0.29 * Опрак дз + 0.29 * Отеор дз + 0.22 * Оэкз

Правила вычисления оценок

Оценка за практические/теоретические домашние задания вычисляется как сумма баллов по всем практическим/теоретическим домашним заданиям, переведенная в 10-балльную шкалу. Количество баллов за разные задания может различаться в зависимости от их сложности. Все промежуточные оценки (за домашние, контрольную и экзамен) могут быть не целыми и не округляются. Итоговая оценка округляется по стандартным правилам, оценка вида (k+1/2), где k — целое число округляется вверх.

Правила сдачи заданий

Если вы сдаёте работу позже срока, её оценка умножается на exp(-t / 86400), где t — число секунд, прошедшее с дедлайна. Иными словами, опоздать на пару секунд не страшно, но опоздав на сутки, вы поделите свой результат на e. Сдать после срока можно только один раз, а если вы сдали работу вовремя, досдать после срока какие-либо задачи уже нельзя. Это не касается соревнований: там есть жесткое время окончания соревнования, и после него уже ничего отправить нельзя.

Все письменные работы выполняются самостоятельно. Вам запрещено смотреть в чужие решения (в том числе в чужой код), до тех пор, пока вы не сделали и не сдали эту задачу сами. Это касается решений и кода, написанного вашими однокурсниками, написанного предшествующими поколениями или найденного где-либо ещё. Из этого, в частности, следует, что вам запрещено целенаправленно искать решение вашей задачи в интернете. (Хотя, конечно, вы можете использовать поиск в интернете, чтобы разобраться в том, как работают те или иные инструменты или как сделать конкретное действие, если это действие не является само по себе решением задачи.) Вам также запрещено показывать свои решения другим студентам. При обнаружении плагиата или иных нарушений академической этики оценки за соответствующее домашнее задание обнуляются всем задействованным в списывании студентам, а также подаётся докладная записка в деканат.

При наличии уважительной причины (предоставляется справка, подтвержденная учебным офисом) вес контрольной работы может быть перенесён на экзамен; также может быть перенесён дедлайн по домашнему заданию (за исключением соревнований). Для согласования обращаться к лектору.

Теоретические домашние задания можно сдавать в виде Jupyter Notebook (.ipynb; там поддерживаются формулы в LaTeX), в виде отдельных PDF-документов, набранных в LaTeX или с помощью любого другого инструмента, поддерживающего вёрстку формул, либо в виде аккуратного скана аккуратно написанного от руки решения, также в формате PDF. В случае, если решение написано неаккуратно с точки зрения проверяющего, работа может получить штраф в 5% от оценки, либо, если работа вызывает существенные трудности для чтения, отправлена на доработку без продления срока сдачи.

Новости курса

Телеграм канал с объявлениями

Лекции

Дата Название Видео Дополнительные материалы
1 14 января Введение в ml, постановки задач, виды данных видео
2 21 января Статистическая теория принятия решений видео
3 28 января Шум, смещение, разброс видео
4 4 февраля Линейные модели видео
5 11 февраля Линейные модели (продолжение) видео
6 18 февраля Линейная и логистическая регрессии видео Конспекты Е. Соколова: Ещё о линейных регрессиях, логистическая регрессия
7 25 февраля Логистическая регрессия (продолжение) видео Конспекты Е. Соколова: логистическая регрессия, многоклассовая классификация
8 4 марта SVM и решающие деревья видео Конспекты Е. Соколова: метод опорных векторов (см. часть 2), решающие деревья
9 11 марта Решающие леса видео Конспекты Е. Соколова решающие леса
10 18 марта Градиентный бустинг видео Конспекты Е. Соколова градиентный бустинг (мы не обсуждали AdaBoost)
11 25 марта Нейронные сети видео Конспекты Е. Соколова: Графы вычислений и элементы глубинного обучения. Дополнительный материал: теорема об универсальной аппроксимации (англ.),
12 8 апреля Сверточные нейронные сети видео Конспекты Е. Соколова: Графы вычислений и элементы глубинного обучения, дополнительный материал: convolutional networks (англ.)
13 15 апреля Рекурентные нейронные сети видео Understanding LSTM Networks
14 22 апреля Продвинутая обработка естественного языка видео
15 29 апреля Знакомство с unsupervised learning. Алгоритмы кластеризации: K-means, спектральная кластеризация, иерархическая кластеризация. Разделение гауссовых смесей, EM-алгоритм. видео
16 13 мая SVD-разложение и метод главных компонент видео
17 20 мая Применение матричных разложений в рекомендательных системах. Автокодировщики видео

Семинары

Дата Название Материалы Видео
1 14/15 января Введение в numpy, pandas, matplotlib github colab семинар Сони Дымченко
2 21/22 января Алгоритм K ближайших соседей (k-NN) github nbviewer colab семинар Сони Дымченко, семинар Ильи Щурова
3 28/29 января Разложение ошибки на смещение и разброс, кросс-валидация, проклятие размерности, KNN из коробки (продолжение) github семинар Руслана Хайдурова
4 4/5 февраля Линейная регрессия, градиентный спуск, метрика качества R^2 github colab семинар Сони Дымченко
5 11/12 февраля Регуляризация линейной регрессии, отбор признаков github семинар Руслана Хайдурова
6 18/19 февраля Логистическая регрессия, метрики для задачи классификации (precision, recall, f-measure, ROC/PR-AUC), создание полиномиальных признаков colab github семинар Руслана Хайдурова
7 25/26 февраля Обработка текстов, лемматизация и стемминг, векторное представление текстов (BOW, TfIdf), обучение моделей классификации отзывов (практика) github colab solved семинар Сони Дымченко
8 4/5 марта Решающие деревья github colab семинар Руслана Хайдурова
9 11/12 марта Бэггинг, случайный лес github colab семинар Сони Дымченко
10 18/19 марта Градиентный бустинг github colab семинар Сони Дымченко
11 25/26 марта Знакомство с pytorch .ipynb 2020 семинар Руслана Хайдурова
12 8/9 апреля Продолжение работы с pytorch  ? семинар Руслана Хайдурова
13 15/16 апреля Применение нейронных сетей для работы с изображениями .ipynb 2020 семинар Сони Дымченко
14 22/23 апреля Разбор мид-терма видео разбора
15 29/30 апреля Трансформеры и методы работы с текстом  ? NLP 2020 семинар Руслана Хайдурова
16 13/14 мая Матричные разложения и приложения, SVD, PCA, LSA, t-SNE .ipynb 2020 Видео 2020 [? Видео 2021]
17 20/21 мая Кластеризация .ipynb 2020 Видео 2020 [ ? Видео 2021]

Как корректно скачать файл с расширением .ipynb с GitHub?

Домашние задания

Домашние задания сдаются в энитаск (ссылка выше). Инвайт: g1laCLh

тема и условие тип дата выдачи дедлайн комментарий
0 Теория вероятностей: условие теоретическое 14.01 20.01 23:59:59
1 Бибилотеки Python: numpy, pandas, matplotlib: условие практическое 14.01 24.01 23:59:59
2 Оценки, ошибки и градиентный спуск: nbviewer github pdf теоретическое 8.02 15.02 23:59:59
3 Метод k ближайших соседей: nbviewer github практическое 14.02 28.02 23:59:59
4 Вокруг линейных моделей: ipynb pdf теоретическое 8.03 18.03 23:59:59
5 Линейные модели: ipynb nbviewer практическое 19.03 Часть 1: 28.03 23:59:59, Часть 2: 13.04 23:59:59

Контрольные работы

Midterm

Промежуточная контрольная работа (мидтерм) состоится в четверг, 1 апреля. Она захватит материал первых 9 занятий: лекций, семинаров и релевантных домашних заданий.

Final

Полезные материалы

Базовые учебники

  1. Hastie T., Tibshirani R, Friedman J. The Elements of Statistical Learning (2nd edition). Springer, 2009.
  2. Bishop C. M. Pattern Recognition and Machine Learning. Springer, 2006.

Дополнительная литература

  1. Шарден Б., Массарон Л., Боскетти А. Крупномасштабное машинное обучение вместе с Python, Издательство "ДМК Пресс", 2018.
  2. Ian Goodfellow and Yoshua Bengio and Aaron Courville, Deep Learning, MIT Press, 2016.
  3. Mohri M., Rostamizadeh A., Talwalkar A. Foundations of Machine Learning. MIT Press, 2012.
  4. Murphy K. Machine Learning: A Probabilistic Perspective. MIT Press, 2012.
  5. Mohammed J. Zaki, Wagner Meira Jr. Data Mining and Analysis. Fundamental Concepts and Algorithms. Cambridge University Press, 2014.

Разные хорошие ссылки

  1. Об условных вероятностях.
  2. Mathematics for Machine Learning — книга с математическим введением в машинное обучение. Вам могут быть особенно интересно главы про теорию вероятностей.