Машинное обучение на матфаке 2020 — различия между версиями

Материал из Wiki - Факультет компьютерных наук
Перейти к: навигация, поиск
(Практические)
 
(не показано 66 промежуточных версии 3 участников)
Строка 8: Строка 8:
 
== Полезные ссылки ==
 
== Полезные ссылки ==
 
* [https://tlg.name/joinchat/CDE3klkYVgDJ827u_fGHkw Чат курса]
 
* [https://tlg.name/joinchat/CDE3klkYVgDJ827u_fGHkw Чат курса]
 +
* [https://tlg.name/joinchat/AAAAAFS_93xnGuhhpbKAfQ Телеграм канал с объявлениями]
 
* [https://github.com/new-okaerinasai/math-ml-hse-2019 Репозиторий с материалами на GitHub]
 
* [https://github.com/new-okaerinasai/math-ml-hse-2019 Репозиторий с материалами на GitHub]
* [ Курс на Anytask]
+
* [https://anytask.org/course/604 Курс на Anytask]
* [ Таблица оценок]
+
* [https://docs.google.com/spreadsheets/d/1ODunc_4KXfvmaVvGZtfaEIZ0TAeFGMYr27M0yPkR-7U/edit?usp=sharing Таблица с оценками]
 
* [https://www.hse.ru/edu/courses/316533676 РПУД]
 
* [https://www.hse.ru/edu/courses/316533676 РПУД]
  
Строка 17: Строка 18:
 
{| class="wikitable"
 
{| class="wikitable"
 
|-
 
|-
! Группа !! Преподаватель !! Учебный ассистент !! Расписание !! Инвайт в Anytask
+
! Группа !! Преподаватель !! Учебный ассистент !! Расписание
 
|-
 
|-
| 1 || [https://tlg.name/Saigetsu Руслан Хайдуров]  || [https://tlg.name/kagan1543 Александр Каган] || четверг, 12:00-13:20, ауд. 318 || -
+
| 1 || [https://tlg.name/Saigetsu Руслан Хайдуров]  || [https://tlg.name/kagan1543 Александр Каган] || четверг, 12:00-13:20, ауд. 318
 
|-
 
|-
| 2 || [https://tlg.name/svdcvt Соня Дымченко]  ||  [https://tlg.name/baltabaev Павел Балтабаев] || среда, 10:30-11:50, ауд. 318 || -
+
| 2 || [https://tlg.name/svdcvt Соня Дымченко]  ||  [https://tlg.name/baltabaev Павел Балтабаев] || среда, 10:30-11:50, ауд. 318
 
|-
 
|-
 
|}
 
|}
 +
 +
==== Инвайты в anytask ====
 +
Просьба пройти по [https://docs.google.com/spreadsheets/d/1hU_IAAsUmlVi6UJxS7rNJVjYtZUYtSFkNh0XmnwNGc8/edit?usp=sharing этой сслыке], чтобы узнать свой инвайт в энитаск.
  
 
=== Система оценивания ===
 
=== Система оценивания ===
Строка 30: Строка 34:
  
 
<blockquote>'''O<sub>итог</sub> = 0.24 * О<sub>кр</sub> + 0.25 * О<sub>прак дз</sub> + 0.21 * О<sub>теор дз</sub> + 0.3 * О<sub>экз</sub>'''</blockquote>
 
<blockquote>'''O<sub>итог</sub> = 0.24 * О<sub>кр</sub> + 0.25 * О<sub>прак дз</sub> + 0.21 * О<sub>теор дз</sub> + 0.3 * О<sub>экз</sub>'''</blockquote>
 +
 +
<br><span style="color:#DC143C">  </span>
  
 
==== Правила вычисления оценок ====
 
==== Правила вычисления оценок ====
Строка 42: Строка 48:
  
 
== Новости курса ==
 
== Новости курса ==
 +
[https://t-do.ru/joinchat/AAAAAFS_93xnGuhhpbKAfQ Телеграм канал с объявлениями]
  
 
== Лекции ==
 
== Лекции ==
 
{| class="wikitable"
 
{| class="wikitable"
 
|-
 
|-
! № !! Дата !! Название !! Конспект  
+
! № !! Дата !! Название !! Конспект / Видео
 
|-
 
|-
 
| 1 || 16 января  || Введение в ml, постановки задач, виды данных ||  
 
| 1 || 16 января  || Введение в ml, постановки задач, виды данных ||  
 +
|-
 +
| 2 || 23 января ||Напоминание: теория вероятностей || [http://math-info.hse.ru/math-ml/chapter/label/chap:2:prob/ конспект]
 +
|-
 +
| 3 || 30 января || Статистическая теория принятия решений || [http://math-info.hse.ru/math-ml/chapter/label/chap:3:els/ конспект]
 +
|-
 +
| 4 || 6 февраля || Шум, смещение и разброс || [http://math-info.hse.ru/math-ml/chapter/label/chap:4:bias-variance/ конспект]
 +
|-
 +
| 5 || 13 февраля || Линейная регрессия || [http://math-info.hse.ru/math-ml/chapter/label/chap:5:linear-reg/ конспект]
 +
|-
 +
| 6 || 20 февраля || Свойства МНК-оценки. Несмещённость. Ковариационная матрица оценки. Теорема Гаусса — Маркова. Отбор признаков || [http://math-info.hse.ru/math-ml/chapter/label/chap:6:linear-reg2/ конспект], [https://youtu.be/3nizTmbT0Ws видео] (2018-19)
 +
|-
 +
| 7 || 27 февраля || Различные функции потерь для регрессий: MAE, Huber loss; L1-регуляризация как метод отбора признаков; переобучение в линейной регрессии (пример с полиномиальными признаками). Логистическая регрессия с одним признаком, её функция правдоподобия. || Конспекты Е. Соколова: [https://github.com/esokolov/ml-course-hse/blob/master/2017-fall/lecture-notes/lecture03-linregr.pdf Ещё о линейных регрессиях], [https://github.com/esokolov/ml-course-hse/blob/master/2017-fall/lecture-notes/lecture05-linclass.pdf логистическая регрессия]
 +
|-
 +
| 8 || 5 марта || Логистическая регрессия. Логарифмическая функция потерь. Выражение функции потерь через отступ. Многоклассовая классификация: комбинирование двухклассовых классификаторов  (one vs rest, one vs one), многоклассовая (мультиномиальная) логистическая регрессия. || Конспекты Е. Соколова: [https://github.com/esokolov/ml-course-hse/blob/master/2017-fall/lecture-notes/lecture05-linclass.pdf логистическая регрессия], [https://github.com/esokolov/ml-course-hse/blob/master/2017-fall/lecture-notes/lecture06-linclass.pdf многоклассовая классификация]
 +
|-
 +
| 9 || 12 марта || Support vector machines (как задача уменьшения эмпирического риска для hinge loss). Решающие деревья. || Конспекты Е. Соколова:  [https://github.com/esokolov/ml-course-hse/blob/master/2017-fall/lecture-notes/lecture05-linclass.pdf метод опорных векторов] (см. часть 2), [https://github.com/esokolov/ml-course-hse/blob/master/2017-fall/lecture-notes/lecture07-trees.pdf решающие деревья]
 +
|-
 +
| 10 || 19 марта || Решающие леса  || Конспекты Е. Соколова [https://github.com/esokolov/ml-course-hse/blob/master/2017-fall/lecture-notes/lecture08-ensembles.pdf решающие леса],
 +
|-
 +
| 11 || 26 марта || Градиентный бустинг над деревьями || [https://github.com/esokolov/ml-course-hse/blob/master/2017-fall/lecture-notes/lecture09-ensembles.pdf градиентный бустинг] (мы не обсуждали AdaBoost), [https://youtu.be/xHtn_yr-Zj8 видео лекции]
 +
|-
 +
| 12 || 9 апреля || Нейронные сети как способ обучения признаков. Многослойный персептрон. Теорема об универсальной аппроксимации для персептрона с двумя скрытыми слоями и ReLU-активацией (набросок доказательства). Backpropagation.  ||  Конспекты Е. Соколова: [https://github.com/esokolov/ml-course-hse/blob/master/2017-fall/lecture-notes/lecture11-dl.pdf Графы вычислений и элементы глубинного обучения]. Дополнительный материал: [http://neuralnetworksanddeeplearning.com/chap4.html теорема об универсальной аппроксимации] (англ.), [https://youtu.be/9jx402kNEME видео]
 +
|-
 +
| 13 || 16 апреля || Свёрточные нейронные сети для обработки изображений. || Конспекты Е. Соколова: [https://github.com/esokolov/ml-course-hse/blob/master/2017-fall/lecture-notes/lecture11-dl.pdf Графы вычислений и элементы глубинного обучения], дополнительный материал: [http://cs231n.github.io/convolutional-networks/ convolutional networks] (англ.), [https://youtu.be/J8OUFlsgpLU видео]
 +
|-
 +
| 14 || 23 апреля || Рекуррентные нейронные сети || [https://colah.github.io/posts/2015-08-Understanding-LSTMs/ Understanding LSTM Networks],  [https://youtu.be/FNUSXJWP_R4 видео].
 +
|-
 +
| 15 || 30 апреля || Обработка текстов с помощью нейросетей. Embeddings. Механизм внимания в рекуррентных нейросетях. Архитектура Transformer || [https://youtu.be/-cIqbTFDnaE видео]
 +
|-
 +
| 16 || 7 мая || Задачи обучения без учителя (unsupervised learning). Кластеризация. Алгоритм K-means. Разделение гауссовых смесей и EM-алгоритм. Иерархическая кластеризация. Спектральная кластеризация. || [https://youtu.be/UlMVIFIEYD0 видео]
 +
|-
 +
| 17 || 14 мая || Мидтерм разбор || -
 +
|-
 +
| 18 || 21 мая || Задача снижения размерности. Метод главных компонент (PCA). SVD-разложение. Применение матричных разложений при построении рекомендательных систем. Алгоритм ALS. || [https://youtu.be/Jaq049qQmnc видео]
 
|}
 
|}
  
Строка 56: Строка 97:
 
! № !! Дата !! Название !! Материалы  
 
! № !! Дата !! Название !! Материалы  
 
|-
 
|-
| 1 || 16/22 января || Введение в numpy, pandas, matplotlib || [ Задачи]
+
| 1 || 16/22 января || Введение в numpy, pandas, matplotlib || [https://github.com/new-okaerinasai/math-ml-hse-2019/blob/master/sem01_intro/sem01.ipynb Задачи]
 +
|-
 +
| 2 || 23/29 января || SciPy, статистика || [https://github.com/new-okaerinasai/math-ml-hse-2019/blob/master/sem02_stats/sem02_stats.ipynb Задачи]
 +
|-
 +
| 3 || 30.01/5.02 || Алгоритм K ближайших соседей, разложение ошибки KNN на смещение и разброс || [https://github.com/new-okaerinasai/math-ml-hse-2019/blob/master/sem03_knn1/sem03_knn1.ipynb Задачи]
 +
|-
 +
| 4 || 6/12 февраля || Разложение ошибки на смещение и разброс, кросс-валидация, проклятие размерности, KNN из коробки || [https://github.com/new-okaerinasai/math-ml-hse-2019/blob/master/sem04_knn2/sem04_knn2.ipynb Задачи]
 +
|-
 +
| 5 || 13/19 февраля || Линейная регрессия, градиентный спуск, коэффициент детерминации R² || [https://github.com/new-okaerinasai/math-ml-hse-2019/blob/master/sem05_linreg/sem05_linreg.ipynb Задачи]
 +
|-
 +
| 6 || 20/26 февраля || Регуляризация линейной регрессии, отбор признаков || [https://github.com/new-okaerinasai/math-ml-hse-2019/blob/master/sem06_regularization/sem06.ipynb Задачи]
 +
|-
 +
| 7 || 27.02/4.03 || Логистическая регрессия, метрики для задачи классификации (precision, recall, f-measure, ROC/PR-AUC), создание полиномиальных признаков || [https://github.com/new-okaerinasai/math-ml-hse-2019/blob/master/sem07_logreg/sem07_logreg.ipynb Задачи]
 +
|-
 +
| 8 || 5/11 марта || Автоматическая обработка текстов, базовые методы для работы с текстами, решаем задачу анализа тональности текстов || [https://github.com/new-okaerinasai/math-ml-hse-2019/blob/master/sem08_texts/sem08_texts.ipynb Задачи]
 +
|-
 +
| 9 || 12/18 марта|| Решающие деревья, зависимость обучения от гиперпараметров, функционал качества и критерий информативности, разбиение вершины своими руками || [https://github.com/new-okaerinasai/math-ml-hse-2019/blob/master/sem09_trees/sem09_trees.ipynb Задачи] [https://youtu.be/GaB2eAU-1Ak Видео]
 +
|-
 +
| 10 || 19/25 марта|| Ансамбли: bagging, random forest || [https://github.com/new-okaerinasai/math-ml-hse-2019/blob/master/sem10_ensembles/sem10_ensembles.ipynb Задачи] [https://youtu.be/wbGzFWe9U6M Видео]
 +
|-
 +
| 11 || 26.03/8.04|| Градиентный бустинг || [https://github.com/new-okaerinasai/math-ml-hse-2019/blob/master/sem11_boosting/sem11_boosting.ipynb Задачи] [None :( Видео]
 +
|-
 +
| 12 || 9/15 апреля|| Введение в Pytorch, backpropagation, обучение нейросети || [https://github.com/new-okaerinasai/math-ml-hse-2019/blob/master/sem12_pytorch_intro/sem12_pytorch_intro.ipynb Задачи] [https://youtu.be/pD4S1vSMxdI Видео]
 +
|-
 +
| 13 || 16/22 апреля || Регуляризация нейросетей, работа с изображениями с помощью нейросетей, классификация MNIST, сверточные нейросети, fine-tuning предобученых моделей || [https://github.com/new-okaerinasai/math-ml-hse-2019/blob/master/sem13_images/sem13_images.ipynb Задачи] [https://youtu.be/bzR50UbBYbs Видео]
 +
|-
 +
| 14 || 23/29/30 апреля|| Работа с текстами с помощью нейросетей, advanced NLP || [https://youtu.be/-cIqbTFDnaE Задачи]
 +
|-
 +
| 16 || 7/13 мая || Кластеризация || [https://github.com/new-okaerinasai/math-ml-hse-2019/blob/master/sem15_clustering/sem15_clustering.ipynb Задачи] [https://youtu.be/d_izdlbBnfQ Видео]
 +
|-
 +
| 17 || 14/20 мая|| Матричные разложения и приложения, SVD, PCA, LSA, t-SNE || [https://github.com/new-okaerinasai/math-ml-hse-2019/blob/master/sem16_svd/sem16_svd.ipynb Задачи] [https://youtu.be/F-HW0dlT7ks Видео]
 +
|-
 +
| 18 || 21/27 мая|| Экзамен разбор || -
 
|}
 
|}
  
Строка 62: Строка 135:
  
 
== Домашние задания ==
 
== Домашние задания ==
===Практические===
 
[https://github.com/new-okaerinasai/math-ml-hse-2019/blob/master/hw1.ipynb Домашнее задание 1 -- numpy, pandas, matplotlib]
 
  
===Теоретические===
+
{|class='wikitable'
 +
! № !! тема и условие !! тип !! дата выдачи !! дедлайн !! комментарий
 +
|-
 +
| 1
 +
| Введение в numpy, pandas, matplotlib:[https://github.com/new-okaerinasai/math-ml-hse-2019/blob/master/hw1.ipynb github]
 +
| практическое
 +
| 27 января
 +
| 9 февраля 23:59:59
 +
| 31.01.2020 — задание изменено
 +
|-
 +
| 2
 +
| Оценки и ошибки: [https://github.com/new-okaerinasai/math-ml-hse-2019/blob/master/hw2.ipynb github], [https://nbviewer.jupyter.org/github/new-okaerinasai/math-ml-hse-2019/blob/master/hw2.ipynb nbviewer]
 +
| теоретическое
 +
| 10 февраля
 +
| 1 марта 23:59:59
 +
|
 +
|-
 +
| 3
 +
| KNN алгоритм: [https://github.com/new-okaerinasai/math-ml-hse-2019/blob/master/hw3/hw3.ipynb github]
 +
| практическое
 +
| 18 февраля
 +
| 4 марта 23:59:59
 +
|
 +
|-
 +
| 4
 +
| Линейная и логистическая регрессия: [https://github.com/new-okaerinasai/math-ml-hse-2019/blob/master/hw4.ipynb github]
 +
| практическое
 +
| 12 марта
 +
| 26 марта 23:59:59
 +
|
 +
|-
 +
| 5
 +
| Линейные модели и неможко деревьев:  [https://github.com/new-okaerinasai/math-ml-hse-2019/blob/master/hw5/hw5.ipynb github], [https://nbviewer.jupyter.org/github/new-okaerinasai/math-ml-hse-2019/blob/master/hw5/hw5.ipynb nbviewer]
 +
| теоретическое
 +
| 27 марта
 +
| 10 апреля, 23:59:59
 +
|
 +
|-
 +
| 6
 +
| Соревнование №1:  [https://www.kaggle.com/c/hsemath2020flights/notebooks kaggle], [https://www.kaggle.com/t/fa9bed4537a1433f93439771bde78c4a invite]
 +
| практическое
 +
| 8 апреля
 +
| 30 апреля, 23:59:59
 +
|
 +
|-
 +
| 7
 +
| Соревнование №2: [https://www.kaggle.com/c/hsemath2020reviews kaggle] [https://www.kaggle.com/t/f165989c588144c683b97d9d4dadfb9c invite]
 +
| практическое
 +
| 1 мая
 +
| 29 мая, 03:00:00
 +
| Правила в телеграм-канале
 +
|
 +
|}
 +
 
 +
== Контрольные работы ==
 +
=== Midterm ===
 +
Работа состоится 14 мая с 10:00 до 12:00. Она будет покрывать материал первых 9 занятий (включительно, то есть деревья будут, а лесов и дальше — нет).   
 +
Контрольная будет проходить в удалённом режиме с контролем времени. На
 +
выполнение работы выделено 120 минут. В ходе работы можно будет пользоваться
 +
любыми источниками информации и программными средствами, но нельзя как-либо
 +
обсуждать работу, задачи, их решения или ответы с другими людьми. Работа
 +
может быть разбита на несколько частей, которые будут выдаваться поэтапно.
 +
Студенты должны обеспечить себе бесперебойный доступ в интернет в течение
 +
всего времени работы, позволяющий принимать условия и сдавать решения.
 +
Рекомендуется иметь резервный канал доступа в интернет (например, два
 +
канала: проводной интернет и телефон). Также необходимо обеспечить наличие
 +
средств для оцифровки работ (сканер, телефон с фотокамерой достаточного
 +
качества, чтобы фотографии работы были хорошо читаемы, электронный планшет и
 +
т.д.) Решения можно будет сдавать с помощью разных средств, включая отправку через Telegram или по e-mail. Задания будут отправлены по e-mail, для получения нужно будет заранее зарегистрироваться по ссылке ниже, до конца суток 13 мая.
 +
 
 +
* [http://math-info.hse.ru/f/2018-19/math-ml/midterm.pdf Вариант 2018-19 учебного года]
 +
* [https://docs.google.com/forms/d/e/1FAIpQLSeUlfVcEn6hIuR4c3vE_TQwDfTErB1yih4h7lw03I52a9gdFw/viewform Регистрация]
 +
* [https://youtu.be/iGQ518pCAEM Разбор (видео)]
 +
 
 +
=== Final ===
 +
Экзамен состоится 27 мая с 10:00 до 12:00. Правила выполнения работы аналогичны midterm.
 +
 
 +
* [http://math-info.hse.ru/f/2018-19/math-ml/final.pdf Вариант 2018-19 учебного года]
  
 
== Полезные материалы ==
 
== Полезные материалы ==

Текущая версия на 14:55, 2 июня 2020

О курсе

Курс читается для студентов факультета математики ВШЭ в 3-4 модулях.

Лектор: Щуров Илья Валерьевич

Лекции проходят по четвергам в 10:30 в 110 аудитории.

Полезные ссылки

Семинары

Группа Преподаватель Учебный ассистент Расписание
1 Руслан Хайдуров Александр Каган четверг, 12:00-13:20, ауд. 318
2 Соня Дымченко Павел Балтабаев среда, 10:30-11:50, ауд. 318

Инвайты в anytask

Просьба пройти по этой сслыке, чтобы узнать свой инвайт в энитаск.

Система оценивания

Формула оценки

Результирующая оценка по дисциплине рассчитывается по формуле:

Oитог = 0.24 * Окр + 0.25 * Опрак дз + 0.21 * Отеор дз + 0.3 * Оэкз


Правила вычисления оценок

Оценка за практические/теоретические домашние задания вычисляется как сумма баллов по всем практическим/теоретическим домашним заданиям, переведенная в 10 бальную шкалу. Количество баллов за разные задания может различаться в зависимости от их сложности. Все промежуточные оценки (за домашние, контрольную и экзамен) могут быть не целыми и не округляются.

Правила сдачи заданий

Дедлайны по всем домашним заданиям являются жёсткими, то есть после срока работы не принимаются (даже если опоздание сроком на одну минуту, сдавайте вовремя!).

При обнаружении плагиата оценки за домашнее задание обнуляются всем задействованным в списывании студентам, а также возможно подаётся докладная записка в деканат.

При наличии уважительной причины (предоставляется справка, подтверженная учебным офисом) пропущенную контрольную можно написать позднее, а дедлайн по домашнему заданию может быть перенесён (за исключением соревнований).

Новости курса

Телеграм канал с объявлениями

Лекции

Дата Название Конспект / Видео
1 16 января Введение в ml, постановки задач, виды данных
2 23 января Напоминание: теория вероятностей конспект
3 30 января Статистическая теория принятия решений конспект
4 6 февраля Шум, смещение и разброс конспект
5 13 февраля Линейная регрессия конспект
6 20 февраля Свойства МНК-оценки. Несмещённость. Ковариационная матрица оценки. Теорема Гаусса — Маркова. Отбор признаков конспект, видео (2018-19)
7 27 февраля Различные функции потерь для регрессий: MAE, Huber loss; L1-регуляризация как метод отбора признаков; переобучение в линейной регрессии (пример с полиномиальными признаками). Логистическая регрессия с одним признаком, её функция правдоподобия. Конспекты Е. Соколова: Ещё о линейных регрессиях, логистическая регрессия
8 5 марта Логистическая регрессия. Логарифмическая функция потерь. Выражение функции потерь через отступ. Многоклассовая классификация: комбинирование двухклассовых классификаторов (one vs rest, one vs one), многоклассовая (мультиномиальная) логистическая регрессия. Конспекты Е. Соколова: логистическая регрессия, многоклассовая классификация
9 12 марта Support vector machines (как задача уменьшения эмпирического риска для hinge loss). Решающие деревья. Конспекты Е. Соколова: метод опорных векторов (см. часть 2), решающие деревья
10 19 марта Решающие леса Конспекты Е. Соколова решающие леса,
11 26 марта Градиентный бустинг над деревьями градиентный бустинг (мы не обсуждали AdaBoost), видео лекции
12 9 апреля Нейронные сети как способ обучения признаков. Многослойный персептрон. Теорема об универсальной аппроксимации для персептрона с двумя скрытыми слоями и ReLU-активацией (набросок доказательства). Backpropagation. Конспекты Е. Соколова: Графы вычислений и элементы глубинного обучения. Дополнительный материал: теорема об универсальной аппроксимации (англ.), видео
13 16 апреля Свёрточные нейронные сети для обработки изображений. Конспекты Е. Соколова: Графы вычислений и элементы глубинного обучения, дополнительный материал: convolutional networks (англ.), видео
14 23 апреля Рекуррентные нейронные сети Understanding LSTM Networks, видео.
15 30 апреля Обработка текстов с помощью нейросетей. Embeddings. Механизм внимания в рекуррентных нейросетях. Архитектура Transformer видео
16 7 мая Задачи обучения без учителя (unsupervised learning). Кластеризация. Алгоритм K-means. Разделение гауссовых смесей и EM-алгоритм. Иерархическая кластеризация. Спектральная кластеризация. видео
17 14 мая Мидтерм разбор -
18 21 мая Задача снижения размерности. Метод главных компонент (PCA). SVD-разложение. Применение матричных разложений при построении рекомендательных систем. Алгоритм ALS. видео

Семинары

Дата Название Материалы
1 16/22 января Введение в numpy, pandas, matplotlib Задачи
2 23/29 января SciPy, статистика Задачи
3 30.01/5.02 Алгоритм K ближайших соседей, разложение ошибки KNN на смещение и разброс Задачи
4 6/12 февраля Разложение ошибки на смещение и разброс, кросс-валидация, проклятие размерности, KNN из коробки Задачи
5 13/19 февраля Линейная регрессия, градиентный спуск, коэффициент детерминации R² Задачи
6 20/26 февраля Регуляризация линейной регрессии, отбор признаков Задачи
7 27.02/4.03 Логистическая регрессия, метрики для задачи классификации (precision, recall, f-measure, ROC/PR-AUC), создание полиномиальных признаков Задачи
8 5/11 марта Автоматическая обработка текстов, базовые методы для работы с текстами, решаем задачу анализа тональности текстов Задачи
9 12/18 марта Решающие деревья, зависимость обучения от гиперпараметров, функционал качества и критерий информативности, разбиение вершины своими руками Задачи Видео
10 19/25 марта Ансамбли: bagging, random forest Задачи Видео
11 26.03/8.04 Градиентный бустинг Задачи [None :( Видео]
12 9/15 апреля Введение в Pytorch, backpropagation, обучение нейросети Задачи Видео
13 16/22 апреля Регуляризация нейросетей, работа с изображениями с помощью нейросетей, классификация MNIST, сверточные нейросети, fine-tuning предобученых моделей Задачи Видео
14 23/29/30 апреля Работа с текстами с помощью нейросетей, advanced NLP Задачи
16 7/13 мая Кластеризация Задачи Видео
17 14/20 мая Матричные разложения и приложения, SVD, PCA, LSA, t-SNE Задачи Видео
18 21/27 мая Экзамен разбор -

Как корректно скачать файл с расширением .ipynb с GitHub?

Домашние задания

тема и условие тип дата выдачи дедлайн комментарий
1 Введение в numpy, pandas, matplotlib:github практическое 27 января 9 февраля 23:59:59 31.01.2020 — задание изменено
2 Оценки и ошибки: github, nbviewer теоретическое 10 февраля 1 марта 23:59:59
3 KNN алгоритм: github практическое 18 февраля 4 марта 23:59:59
4 Линейная и логистическая регрессия: github практическое 12 марта 26 марта 23:59:59
5 Линейные модели и неможко деревьев: github, nbviewer теоретическое 27 марта 10 апреля, 23:59:59
6 Соревнование №1: kaggle, invite практическое 8 апреля 30 апреля, 23:59:59
7 Соревнование №2: kaggle invite практическое 1 мая 29 мая, 03:00:00 Правила в телеграм-канале

Контрольные работы

Midterm

Работа состоится 14 мая с 10:00 до 12:00. Она будет покрывать материал первых 9 занятий (включительно, то есть деревья будут, а лесов и дальше — нет). Контрольная будет проходить в удалённом режиме с контролем времени. На выполнение работы выделено 120 минут. В ходе работы можно будет пользоваться любыми источниками информации и программными средствами, но нельзя как-либо обсуждать работу, задачи, их решения или ответы с другими людьми. Работа может быть разбита на несколько частей, которые будут выдаваться поэтапно. Студенты должны обеспечить себе бесперебойный доступ в интернет в течение всего времени работы, позволяющий принимать условия и сдавать решения. Рекомендуется иметь резервный канал доступа в интернет (например, два канала: проводной интернет и телефон). Также необходимо обеспечить наличие средств для оцифровки работ (сканер, телефон с фотокамерой достаточного качества, чтобы фотографии работы были хорошо читаемы, электронный планшет и т.д.) Решения можно будет сдавать с помощью разных средств, включая отправку через Telegram или по e-mail. Задания будут отправлены по e-mail, для получения нужно будет заранее зарегистрироваться по ссылке ниже, до конца суток 13 мая.

Final

Экзамен состоится 27 мая с 10:00 до 12:00. Правила выполнения работы аналогичны midterm.

Полезные материалы

Базовые учебники

  1. Hastie T., Tibshirani R, Friedman J. The Elements of Statistical Learning (2nd edition). Springer, 2009.
  2. Bishop C. M. Pattern Recognition and Machine Learning. Springer, 2006.

Дополнительная литература

  1. Шарден Б., Массарон Л., Боскетти А. Крупномасштабное машинное обучение вместе с Python, Издательство "ДМК Пресс", 2018.
  2. Ian Goodfellow and Yoshua Bengio and Aaron Courville, Deep Learning, MIT Press, 2016.
  3. Mohri M., Rostamizadeh A., Talwalkar A. Foundations of Machine Learning. MIT Press, 2012.
  4. Murphy K. Machine Learning: A Probabilistic Perspective. MIT Press, 2012.
  5. Mohammed J. Zaki, Wagner Meira Jr. Data Mining and Analysis. Fundamental Concepts and Algorithms. Cambridge University Press, 2014.

Разные хорошие ссылки

  1. Об условных вероятностях.
  2. Mathematics for Machine Learning — книга с математическим введением в машинное обучение. Вам могут быть особенно интересно главы про теорию вероятностей.