Машинное обучение 1/2023 2024
Содержание
О курсе
Курс читается для студентов 3-го курса ПМИ ФКН ВШЭ в 1-2 модулях.
Проводится с 2016 года.
Лектор: Соколов Евгений Андреевич
Лекции проходят по вторникам, 10:30 - 11:50, ауд. 317.
Полезные ссылки
Репозиторий с материалами на GitHub
Почта для сдачи домашних заданий: hse.cs.ml+<номер группы>@gmail.com (например, hse.cs.ml+141@gmail.com)
Канал в telegram для объявлений: https://telegram.me/hse_cs_ml_course
Оставить отзыв на курс: форма
Семинары
Группа | Преподаватель | Учебный ассистент | Страница | Расписание |
---|---|---|---|---|
141 (МОП) | Зиннурова Эльвира Альбертовна | Козловская Наталия | вторник, 12:10 - 13:30, ауд. 513 | |
142 (МОП) | Неклюдов Кирилл Олегович | Егоров Евгений | вторник, 12:10 - 13:30, ауд. 503 | |
143 (АПР) | Яшков Даниил Дмитриевич | Потапенко Анна | вторник, 12:10 - 13:30, ауд. 505 | |
144 (АДИС) | Чиркова Надежда Александровна | Сафин Александр | семинары | вторник, 13:40 - 15:00, ауд. 503 |
145 (РС) | Умнов Алексей Витальевич | Грачев Артем | семинары | пятница, 12:10 - 13:30, ауд. 501 |
Консультации
Группа | Преподаватель | Расписание |
---|---|---|
141 (МОП) | Зиннурова Эльвира Альбертовна | вторник, 13:30-14:00, ауд. 623 |
141 (МОП) | Козловская Наталия | уточняется |
Правила выставления оценок
В курсе предусмотрено несколько форм контроля знания:
- Самостоятельные работы на семинарах, проверяющие знание основных фактов с лекций и выполнение теоретических домашних заданий
- Практические домашние работы на Python
- Соревнования по анализу данных
- Устный коллоквиум в конце 1-го модуля
- Устный экзамен
Итоговая оценка вычисляется на основе оценки за работу в семестре и оценки за экзамен:
Oитоговая = 0.7 * Oнакопленная + 0.3 * Оэкз
Оценка за работу в семестре вычисляется по формуле
Oнакопленная = 0.2 * Oсамостоятельные + 0.6 * Одз + 0.2 * Околлоквиум
Оценка за самостоятельную работу вычисляется как среднее по всем самостоятельным, оценка за домашнюю работу — как среднее по всем практическим заданиям и соревнованиям.
Также за каждое практическое задание и соревнование можно получить дополнительные баллы, которые влияют на выставление оценки за курс автоматом. Необходимым условием для получения автомата является накопленная оценка, равная 8 или выше.
Правила сдачи заданий
Дедлайны по всем домашним заданиям являются жёсткими, то есть после срока работа не принимаются.
При обнаружении плагиата оценки за домашнее задание обнуляются всем задействованным в списывании студентам, а также подаётся докладная записка в деканат. Следует помнить, что при повторном списывании деканат имеет право отчислить студента.
При наличии уважительной причины пропущенную проверочную можно написать позднее, а дедлайн по домашнему заданию может быть перенесён (при этом получить дополнительные баллы за призовые места на конкурсе можно только при участии в общий срок). Дедлайн по домашнему заданию переносится на количество дней, равное продолжительности уважительной причины. Решение о том, является ли причина уважительной, принимает исключительно учебный офис.
Лекции
Лекция 1 (6 сентября). Введение в машинное обучение. Основные термины, постановки задач и примеры применения. [Конспект]
Лекция 2 (13 сентября). Линейная регрессия. Метрики качества регрессии. Градиентный спуск и способы оценивания градиента. Переобучение и регуляризация. [Конспект]
Лекция 3 (20 сентября). Переобучение и регуляризация. Разреженные линейные модели. Квантильная регрессия. Подготовка признаков. [Конспект]
Лекция 4 (27 сентября). Линейная классификация. Отступ и верхние оценки на пороговую функцию потерь. Метрики качества классификации. [Конспект]
Лекция 5 (4 октября). Линейная классификация. Логистическая регрессия и оценки вероятности классов. Метод опорных векторов. [Конспект]
Семинары
Семинар 1. Библиотеки для анализа данных: numpy, pandas, matplotlib. [Notebook]
Семинар 2. Векторное дифференцирование. Линейная регрессия, аналитическое и численное решение. Scikit-learn. [Notebook] [Домашнее задание]
Семинар 3. Подготовка признаков (масштабирование, категориальные признаки, нелинейные признаки, заполнение пропусков). Выбросы и устойчивые к ним модели. Квантильная регрессия. Vowpal Wabbit. [Notebook] [Домашнее задание]
Семинар 4. Линейная классификация. Обучение линейных классификаторов в scikit-learn. Метрики качества классификации. Особенности кросс-валидации, стратификация. [Notebook] [Домашнее задание]
Семинар 5. Линейная классификация. Построение ROC-кривых. Явная формула для AUC-ROC. Интерпретации AUC-ROC. Функции потерь, корректно оценивающие вероятности классов. Метод опорных векторов и его гиперпараметры. [Конспект] [Notebook] [Домашнее задание]
Практические задания
Задание 1. Numpy, pandas, scikit-learn и градиентный спуск.
Дата выдачи: 16.09.2016
Дедлайн: 30.09.2016 23:59MSK
Соревнования
В течение недели после окончания соревнования необходимо прислать:
- Краткий отчёт с описанием решения (достаточно одного абзаца текста с описанием использованных признаков и методов)
- Код, с помощью которого можно получить ответы, отправленные в качестве решения на Kaggle
Также студентам, занявшим в своей группе первые три места, необходимо выступить на семинаре с рассказом о своём решении.
Оценка за соревнование вычисляется по формуле
10 - 9 * (i - 1) / (n - 1),
где i — номер студента в таблице результатов, n — количество студентов в группе. При этом всем студентам, которые не участвовали в соревновании или которые не преодолели все бейзлайны, данная оценка заменяется на ноль.
Также за первое место в пределах группы выставляется 3 дополнительных балла, за второе — 2 доп. балла, за третье — 1 доп. балл. Дополнительные баллы не влияют на накопленную оценку, но от них зависит выставление автомата.
Соревнование 1. Оценка вероятности победы в матче Dota 2.
Дата выдачи: 09.10.2016
Дедлайн: 06.11.2016
Соревнование на Kaggle InClass: https://inclass.kaggle.com/c/hse-dota2-win-prediction
Ссылка для участия: https://kaggle.com/join/cshse161
Полезные материалы
Книги
- Hastie T., Tibshirani R, Friedman J. The Elements of Statistical Learning (2nd edition). Springer, 2009.
- Bishop C. M. Pattern Recognition and Machine Learning. Springer, 2006.
- Mohri M., Rostamizadeh A., Talwalkar A. Foundations of Machine Learning. MIT Press, 2012.
- Murphy K. Machine Learning: A Probabilistic Perspective. MIT Press, 2012.
- Mohammed J. Zaki, Wagner Meira Jr. Data Mining and Analysis. Fundamental Concepts and Algorithms. Cambridge University Press, 2014.