Машинное обучение на матфаке 2020 — различия между версиями

Материал из Wiki - Факультет компьютерных наук
Перейти к: навигация, поиск
(Лекции)
Строка 86: Строка 86:
 
| 4 || 6/12 февраля || Разложение ошибки на смещение и разброс, кросс-валидация, проклятие размерности, KNN из коробки || [https://github.com/new-okaerinasai/math-ml-hse-2019/blob/master/sem04_knn2/sem04_knn2.ipynb Задачи]
 
| 4 || 6/12 февраля || Разложение ошибки на смещение и разброс, кросс-валидация, проклятие размерности, KNN из коробки || [https://github.com/new-okaerinasai/math-ml-hse-2019/blob/master/sem04_knn2/sem04_knn2.ipynb Задачи]
 
|-
 
|-
| 5 || 13/19 февраля || Линейная регрессия, градиентный спуск, коэффициент детерминации R^2 || [https://github.com/new-okaerinasai/math-ml-hse-2019/blob/master/sem05_linreg/sem05_linreg.ipynb Задачи]
+
| 5 || 13/19 февраля || Линейная регрессия, градиентный спуск, коэффициент детерминации || [https://github.com/new-okaerinasai/math-ml-hse-2019/blob/master/sem05_linreg/sem05_linreg.ipynb Задачи]
 
|-
 
|-
 
| 6 || 20/26 февраля || Регуляризация линейной регрессии, отбор признаков || [https://github.com/new-okaerinasai/math-ml-hse-2019/blob/master/sem06_regularization/sem06.ipynb Задачи]
 
| 6 || 20/26 февраля || Регуляризация линейной регрессии, отбор признаков || [https://github.com/new-okaerinasai/math-ml-hse-2019/blob/master/sem06_regularization/sem06.ipynb Задачи]

Версия 01:13, 27 марта 2020

О курсе

Курс читается для студентов факультета математики ВШЭ в 3-4 модулях.

Лектор: Щуров Илья Валерьевич

Лекции проходят по четвергам в 10:30 в 110 аудитории.

Полезные ссылки

Семинары

Группа Преподаватель Учебный ассистент Расписание
1 Руслан Хайдуров Александр Каган четверг, 12:00-13:20, ауд. 318
2 Соня Дымченко Павел Балтабаев среда, 10:30-11:50, ауд. 318

Инвайты в anytask

Просьба пройти по этой сслыке, чтобы узнать свой инвайт в энитаск.

Система оценивания

Формула оценки

Результирующая оценка по дисциплине рассчитывается по формуле:

Oитог = 0.24 * Окр + 0.25 * Опрак дз + 0.21 * Отеор дз + 0.3 * Оэкз

Правила вычисления оценок

Оценка за практические/теоретические домашние задания вычисляется как сумма баллов по всем практическим/теоретическим домашним заданиям, переведенная в 10 бальную шкалу. Количество баллов за разные задания может различаться в зависимости от их сложности. Все промежуточные оценки (за домашние, контрольную и экзамен) могут быть не целыми и не округляются.

Правила сдачи заданий

Дедлайны по всем домашним заданиям являются жёсткими, то есть после срока работы не принимаются (даже если опоздание сроком на одну минуту, сдавайте вовремя!).

При обнаружении плагиата оценки за домашнее задание обнуляются всем задействованным в списывании студентам, а также возможно подаётся докладная записка в деканат.

При наличии уважительной причины (предоставляется справка, подтверженная учебным офисом) пропущенную контрольную можно написать позднее, а дедлайн по домашнему заданию может быть перенесён (за исключением соревнований).

Новости курса

Лекции

Дата Название Конспект
1 16 января Введение в ml, постановки задач, виды данных
2 23 января Напоминание: теория вероятностей конспект
3 30 января Статистическая теория принятия решений конспект
4 6 февраля Шум, смещение и разброс конспект
5 13 февраля Линейная регрессия конспект
6 20 февраля Свойства МНК-оценки. Несмещённость. Ковариационная матрица оценки. Теорема Гаусса — Маркова. Отбор признаков конспект, видео (2018-19)
7 27 февраля Различные функции потерь для регрессий: MAE, Huber loss; L1-регуляризация как метод отбора признаков; переобучение в линейной регрессии (пример с полиномиальными признаками). Логистическая регрессия с одним признаком, её функция правдоподобия. Конспекты Е. Соколова: Ещё о линейных регрессиях, логистическая регрессия
8 5 марта Логистическая регрессия. Логарифмическая функция потерь. Выражение функции потерь через отступ. Многоклассовая классификация: комбинирование двухклассовых классификаторов (one vs rest, one vs one), многоклассовая (мультиномиальная) логистическая регрессия. Конспекты Е. Соколова: логистическая регрессия, многоклассовая классификация
9 12 марта Support vector machines (как задача уменьшения эмпирического риска для hinge loss). Решающие деревья. Конспекты Е. Соколова: метод опорных векторов (см. часть 2), решающие деревья
10 19 ноября Решающие леса Конспекты Е. Соколова решающие леса,
11 26 ноября Градиентный бустинг над деревьями градиентный бустинг (мы не обсуждали AdaBoost)

Семинары

Дата Название Материалы
1 16/22 января Введение в numpy, pandas, matplotlib Задачи
2 23/29 января SciPy, статистика Задачи
3 30.01/5.02 Алгоритм K ближайших соседей, разложение ошибки KNN на смещение и разброс Задачи
4 6/12 февраля Разложение ошибки на смещение и разброс, кросс-валидация, проклятие размерности, KNN из коробки Задачи
5 13/19 февраля Линейная регрессия, градиентный спуск, коэффициент детерминации R² Задачи
6 20/26 февраля Регуляризация линейной регрессии, отбор признаков Задачи
7 27.02/4.03 Логистическая регрессия, метрики для задачи классификации (precision, recall, f-measure, ROC/PR-AUC), создание полиномиальных признаков Задачи
8 5/11 марта Автоматическая обработка текстов, базовые методы для работы с текстами, решаем задачу анализа тональности текстов Задачи
9 12/18 марта Решающие деревья, зависимость обучения от гиперпараметров, функционал качества и критерий информативности, разбиение вершины своими руками Задачи Видео

Как корректно скачать файл с расширением .ipynb с GitHub?

Домашние задания

тема и условие тип дата выдачи дедлайн комментарий
1 Введение в numpy, pandas, matplotlib:github практическое 27 января 9 февраля 23:59:59 31.01.2020 — задание изменено
2 Оценки и ошибки: github, nbviewer теоретическое 10 февраля 1 марта 23:59:59
3 KNN алгоритм: github практическое 18 февраля 4 марта 23:59:59
4 Линейная и логистическая регрессия: github практическое 12 марта 26 марта 23:59:59
5 Линейные модели и неможко деревьев: github, nbviewer теоретическое 27 марта 10 апреля, 23:59:59

Полезные материалы

Базовые учебники

  1. Hastie T., Tibshirani R, Friedman J. The Elements of Statistical Learning (2nd edition). Springer, 2009.
  2. Bishop C. M. Pattern Recognition and Machine Learning. Springer, 2006.

Дополнительная литература

  1. Шарден Б., Массарон Л., Боскетти А. Крупномасштабное машинное обучение вместе с Python, Издательство "ДМК Пресс", 2018.
  2. Ian Goodfellow and Yoshua Bengio and Aaron Courville, Deep Learning, MIT Press, 2016.
  3. Mohri M., Rostamizadeh A., Talwalkar A. Foundations of Machine Learning. MIT Press, 2012.
  4. Murphy K. Machine Learning: A Probabilistic Perspective. MIT Press, 2012.
  5. Mohammed J. Zaki, Wagner Meira Jr. Data Mining and Analysis. Fundamental Concepts and Algorithms. Cambridge University Press, 2014.

Разные хорошие ссылки

  1. Об условных вероятностях.
  2. Mathematics for Machine Learning — книга с математическим введением в машинное обучение. Вам могут быть особенно интересно главы про теорию вероятностей.