Машинное обучение на матфаке 2020

Материал из Wiki - Факультет компьютерных наук
Перейти к: навигация, поиск

О курсе

Курс читается для студентов факультета математики ВШЭ в 3-4 модулях.

Лектор: Щуров Илья Валерьевич

Лекции проходят по четвергам в 10:30 в 110 аудитории.

Полезные ссылки

Семинары

Группа Преподаватель Учебный ассистент Расписание
1 Руслан Хайдуров Александр Каган четверг, 12:00-13:20, ауд. 318
2 Соня Дымченко Павел Балтабаев среда, 10:30-11:50, ауд. 318

Инвайты в anytask

Просьба пройти по этой сслыке, чтобы узнать свой инвайт в энитаск.

Система оценивания

Формула оценки

Результирующая оценка по дисциплине рассчитывается по формуле:

Oитог = 0.24 * Окр + 0.25 * Опрак дз + 0.21 * Отеор дз + 0.3 * Оэкз


Правила вычисления оценок

Оценка за практические/теоретические домашние задания вычисляется как сумма баллов по всем практическим/теоретическим домашним заданиям, переведенная в 10 бальную шкалу. Количество баллов за разные задания может различаться в зависимости от их сложности. Все промежуточные оценки (за домашние, контрольную и экзамен) могут быть не целыми и не округляются.

Правила сдачи заданий

Дедлайны по всем домашним заданиям являются жёсткими, то есть после срока работы не принимаются (даже если опоздание сроком на одну минуту, сдавайте вовремя!).

При обнаружении плагиата оценки за домашнее задание обнуляются всем задействованным в списывании студентам, а также возможно подаётся докладная записка в деканат.

При наличии уважительной причины (предоставляется справка, подтверженная учебным офисом) пропущенную контрольную можно написать позднее, а дедлайн по домашнему заданию может быть перенесён (за исключением соревнований).

Новости курса

Телеграм канал с объявлениями

Лекции

Дата Название Конспект / Видео
1 16 января Введение в ml, постановки задач, виды данных
2 23 января Напоминание: теория вероятностей конспект
3 30 января Статистическая теория принятия решений конспект
4 6 февраля Шум, смещение и разброс конспект
5 13 февраля Линейная регрессия конспект
6 20 февраля Свойства МНК-оценки. Несмещённость. Ковариационная матрица оценки. Теорема Гаусса — Маркова. Отбор признаков конспект, видео (2018-19)
7 27 февраля Различные функции потерь для регрессий: MAE, Huber loss; L1-регуляризация как метод отбора признаков; переобучение в линейной регрессии (пример с полиномиальными признаками). Логистическая регрессия с одним признаком, её функция правдоподобия. Конспекты Е. Соколова: Ещё о линейных регрессиях, логистическая регрессия
8 5 марта Логистическая регрессия. Логарифмическая функция потерь. Выражение функции потерь через отступ. Многоклассовая классификация: комбинирование двухклассовых классификаторов (one vs rest, one vs one), многоклассовая (мультиномиальная) логистическая регрессия. Конспекты Е. Соколова: логистическая регрессия, многоклассовая классификация
9 12 марта Support vector machines (как задача уменьшения эмпирического риска для hinge loss). Решающие деревья. Конспекты Е. Соколова: метод опорных векторов (см. часть 2), решающие деревья
10 19 марта Решающие леса Конспекты Е. Соколова решающие леса,
11 26 марта Градиентный бустинг над деревьями градиентный бустинг (мы не обсуждали AdaBoost), видео лекции
12 9 апреля Нейронные сети как способ обучения признаков. Многослойный персептрон. Теорема об универсальной аппроксимации для персептрона с двумя скрытыми слоями и ReLU-активацией (набросок доказательства). Backpropagation. Конспекты Е. Соколова: Графы вычислений и элементы глубинного обучения. Дополнительный материал: теорема об универсальной аппроксимации (англ.), видео
13 16 апреля Свёрточные нейронные сети для обработки изображений. Конспекты Е. Соколова: Графы вычислений и элементы глубинного обучения, дополнительный материал: convolutional networks (англ.), видео
14 23 апреля Рекуррентные нейронные сети Understanding LSTM Networks, видео.
15 30 апреля Обработка текстов с помощью нейросетей. Embeddings. Механизм внимания в рекуррентных нейросетях. Архитектура Transformer видео
16 7 мая Задачи обучения без учителя (unsupervised learning). Кластеризация. Алгоритм K-means. Разделение гауссовых смесей и EM-алгоритм. Иерархическая кластеризация. Спектральная кластеризация. видео
17 14 мая Мидтерм разбор -
18 21 мая Задача снижения размерности. Метод главных компонент (PCA). SVD-разложение. Применение матричных разложений при построении рекомендательных систем. Алгоритм ALS. видео

Семинары

Дата Название Материалы
1 16/22 января Введение в numpy, pandas, matplotlib Задачи
2 23/29 января SciPy, статистика Задачи
3 30.01/5.02 Алгоритм K ближайших соседей, разложение ошибки KNN на смещение и разброс Задачи
4 6/12 февраля Разложение ошибки на смещение и разброс, кросс-валидация, проклятие размерности, KNN из коробки Задачи
5 13/19 февраля Линейная регрессия, градиентный спуск, коэффициент детерминации R² Задачи
6 20/26 февраля Регуляризация линейной регрессии, отбор признаков Задачи
7 27.02/4.03 Логистическая регрессия, метрики для задачи классификации (precision, recall, f-measure, ROC/PR-AUC), создание полиномиальных признаков Задачи
8 5/11 марта Автоматическая обработка текстов, базовые методы для работы с текстами, решаем задачу анализа тональности текстов Задачи
9 12/18 марта Решающие деревья, зависимость обучения от гиперпараметров, функционал качества и критерий информативности, разбиение вершины своими руками Задачи Видео
10 19/25 марта Ансамбли: bagging, random forest Задачи Видео
11 26.03/8.04 Градиентный бустинг Задачи [None :( Видео]
12 9/15 апреля Введение в Pytorch, backpropagation, обучение нейросети Задачи Видео
13 16/22 апреля Регуляризация нейросетей, работа с изображениями с помощью нейросетей, классификация MNIST, сверточные нейросети, fine-tuning предобученых моделей Задачи Видео
14 23/29/30 апреля Работа с текстами с помощью нейросетей, advanced NLP Задачи
16 7/13 мая Кластеризация Задачи Видео
17 14/20 мая Матричные разложения и приложения, SVD, PCA, LSA, t-SNE Задачи Видео
18 21/27 мая Экзамен разбор -

Как корректно скачать файл с расширением .ipynb с GitHub?

Домашние задания

тема и условие тип дата выдачи дедлайн комментарий
1 Введение в numpy, pandas, matplotlib:github практическое 27 января 9 февраля 23:59:59 31.01.2020 — задание изменено
2 Оценки и ошибки: github, nbviewer теоретическое 10 февраля 1 марта 23:59:59
3 KNN алгоритм: github практическое 18 февраля 4 марта 23:59:59
4 Линейная и логистическая регрессия: github практическое 12 марта 26 марта 23:59:59
5 Линейные модели и неможко деревьев: github, nbviewer теоретическое 27 марта 10 апреля, 23:59:59
6 Соревнование №1: kaggle, invite практическое 8 апреля 30 апреля, 23:59:59
7 Соревнование №2: kaggle invite практическое 1 мая 29 мая, 03:00:00 Правила в телеграм-канале

Контрольные работы

Midterm

Работа состоится 14 мая с 10:00 до 12:00. Она будет покрывать материал первых 9 занятий (включительно, то есть деревья будут, а лесов и дальше — нет). Контрольная будет проходить в удалённом режиме с контролем времени. На выполнение работы выделено 120 минут. В ходе работы можно будет пользоваться любыми источниками информации и программными средствами, но нельзя как-либо обсуждать работу, задачи, их решения или ответы с другими людьми. Работа может быть разбита на несколько частей, которые будут выдаваться поэтапно. Студенты должны обеспечить себе бесперебойный доступ в интернет в течение всего времени работы, позволяющий принимать условия и сдавать решения. Рекомендуется иметь резервный канал доступа в интернет (например, два канала: проводной интернет и телефон). Также необходимо обеспечить наличие средств для оцифровки работ (сканер, телефон с фотокамерой достаточного качества, чтобы фотографии работы были хорошо читаемы, электронный планшет и т.д.) Решения можно будет сдавать с помощью разных средств, включая отправку через Telegram или по e-mail. Задания будут отправлены по e-mail, для получения нужно будет заранее зарегистрироваться по ссылке ниже, до конца суток 13 мая.

Final

Экзамен состоится 27 мая с 10:00 до 12:00. Правила выполнения работы аналогичны midterm.

Полезные материалы

Базовые учебники

  1. Hastie T., Tibshirani R, Friedman J. The Elements of Statistical Learning (2nd edition). Springer, 2009.
  2. Bishop C. M. Pattern Recognition and Machine Learning. Springer, 2006.

Дополнительная литература

  1. Шарден Б., Массарон Л., Боскетти А. Крупномасштабное машинное обучение вместе с Python, Издательство "ДМК Пресс", 2018.
  2. Ian Goodfellow and Yoshua Bengio and Aaron Courville, Deep Learning, MIT Press, 2016.
  3. Mohri M., Rostamizadeh A., Talwalkar A. Foundations of Machine Learning. MIT Press, 2012.
  4. Murphy K. Machine Learning: A Probabilistic Perspective. MIT Press, 2012.
  5. Mohammed J. Zaki, Wagner Meira Jr. Data Mining and Analysis. Fundamental Concepts and Algorithms. Cambridge University Press, 2014.

Разные хорошие ссылки

  1. Об условных вероятностях.
  2. Mathematics for Machine Learning — книга с математическим введением в машинное обучение. Вам могут быть особенно интересно главы про теорию вероятностей.