Машинное обучение 1/2021 2022
Содержание
[убрать]О курсе
Курс читается для студентов 3-го курса ПМИ ФКН ВШЭ в 1-2 модулях.
Проводится с 2016 года.
Лектор: Соколов Евгений Андреевич
Лекции проходят по пятницам, 11:10 - 12:30, в zoom (https://zoom.us/j/98499384799?pwd=OC9GcFd5QlJkZlA5Uk85SHNVTGxSdz09).
Полезные ссылки
Репозиторий с материалами на GitHub
Почта для сдачи домашних заданий (на самом деле задания сдаются в AnyTask, но если он не работает, то присылайте на почту): hse.cs.ml+<номер группы>@gmail.com (например, hse.cs.ml+171@gmail.com)
Канал в telegram для объявлений: https://t.me/joinchat/G2T6pB1CgF82NTMy
Чат в telegram для обсуждений (предназначение чата до конца не ясно, вопросы может быть правильнее задавать в чатах групп): https://t.me/joinchat/NRpKJ09prtRlMTli
Ссылка на курс в Anytask: https://anytask.org/course/856
Оставить отзыв на курс: форма
Вопросы по курсу можно задавать в телеграм лектору (esokolov@) или семинаристу. Вопросы по материалам лекций/семинаров и по заданиям лучше всего задавать на форуме.
Семинары
Группа | Преподаватель |
---|---|
191 (МОП) | Хрушков Павел Вадимович |
192 (МОП) | Соколов Евгений Андреевич |
193 (МОП) | Садртдинов Ильдус Рустемович |
194 (АДИС) | Цвигун Аким Олегович |
195 (РС) | Каюмов Эмиль Марселевич |
196 (РС) | Шабалин Александр Михайлович |
197 (АПР) | Глазкова Екатерина Васильевна |
198 (ТИ) | Ульянкин Филипп @ppilif |
199 (МИ) | Семенкин Антон Александрович |
1910 (ПР) | Биршерт Алексей Дмитриевич |
ФЭН | Зехов Матвей Сергеевич |
Пермь (БИ) | Собянин Кирилл Валентинович |
Пермь (ПИ) | Собянин Кирилл Валентинович |
Консультации
Правила выставления оценок
В курсе предусмотрено несколько форм контроля знания:
- Самостоятельные работы на семинарах, проверяющие знание основных фактов с лекций и семинаров
- Практические домашние работы на Python
- Письменная контрольная работа
- Письменный экзамен
Итоговая оценка вычисляется на основе оценки за работу в семестре и оценки за экзамен:
Итог = Округление(0.15 * ПР + 0.4 * ДЗ + 0.15 * КР + 0.3 * Э)
ПР — средняя оценка за самостоятельные работы на семинарах
ДЗ — средняя оценка за практические домашние работы на Python
КР — оценка за контрольную работу
Э — оценка за экзамен
Округление арифметическое.
Правила сдачи заданий
За каждый день просрочки после мягкого дедлайна снимается 1 балл. После жёсткого дедлайна работы не принимаются. Даже при опоздании на одну секунду. Сдавайте заранее. Есть исключение: в течение семестра каждый студент может не более 2 раз сдать задание после жёсткого дедлайна — в этом случае за каждый день просрочки продолжает вычитаться по одному баллу (если не оговорено иное).
При обнаружении плагиата оценки за домашнее задание обнуляются всем задействованным в списывании студентам, а также подаётся докладная записка в деканат. Следует помнить, что при повторном списывании деканат имеет право отчислить студента.
При наличии уважительной причины пропущенную проверочную можно написать позднее, а дедлайн по домашнему заданию может быть перенесён. Дедлайн по домашнему заданию переносится на количество дней, равное продолжительности уважительной причины. Решение о том, является ли причина уважительной, принимает исключительно учебный офис.
Лекции
Ко всем конспектам на GitHub есть исходники. Исправления и дополнения всячески приветствуются!
Лекция 1 (3 сентября). Введение в машинное обучение. Основные термины, постановки задач и примеры применения. [Конспект] [Запись лекции]
Лекция 2 (10 сентября). Модель линейной регрессии. Подготовка данных для линейных моделей. Измерение ошибки в задачах регрессии. Устойчивые к выбросам функции потерь. Относительные функции потерь. [Конспект] [Запись лекции]
Лекция 3 (17 сентября). Переобучение. Отложенная выборка и кросс-валидация. Аналитическое решение для линейной регрессии и MSE. Градиентный спуск. [Конспект] [Запись лекции]
Лекция 4 (24 сентября). Стохастический градиентный спуск. SAG, Momentum, AdaGrad, Adam. Регуляризация линейных моделей. [Конспект] [Запись лекции]
Лекция 5 (1 октября). Разреженные линейные модели. Линейные классификаторы. Обучение линейных классификаторов через верхние оценки на пороговую функцию потерь. [Конспект] [Запись лекции]
Лекция 6 (8 октября). Метрики качества классификации. Доля верных ответов. Точность, полнота, F-мера и другие способы усреднения. ROC-кривая и PR-кривая, площади под ними. [Конспект] [Запись лекции]
Лекция 7 (15 октября). Оценивание вероятностей. Логистическая регрессия. [Конспект] [Запись лекции]
Лекция 8 (29 октября). Метод опорных векторов. Многоклассовая классификация. Метрики качества многоклассовой классификации. [Конспект по SVM] [Конспект по многоклассовой классификации] [Запись лекции]
Лекция 9 (5 ноября). Решающие деревья. Жадный алгоритм обучения дерева. Функционалы качества предикатов. Связь решающих деревьев и линейных моделей. Разложение ошибки на смещение и разброс. [Конспект по деревьям] [Конспект по BVD] [Запись лекции]
Лекция 10 (12 ноября). Бэггинг и случайные леса. Out-of-bag оценка. Градиентный бустинг. [Конспект по бэггингу и RF] [Конспект по бустингу] [Запись лекции]
Лекция 11 (19 ноября). Градиентный бустинг. Сокращение шага. Стохастический градиентный бустинг. Бустинг над деревьями, дообучение прогнозов в листьях. Бустинг второго порядка. [Конспект по бустингу] [Продолжение конспекта по бустингу] [Запись лекции]
Лекция 12 (26 ноября). Бустинг второго порядка. Регуляризация деревьев в бустинге. Выбор предикатов под функционал бустинга. Разное. [Конспект] [Запись лекции]
Лекция 13 (10 декабря). Разбор контрольной работы. Обучение без учителя. Кластеризация. Метрики качества кластеризации. Метод K-Means. [Конспект] [Запись лекции]
Лекция 14 (17 декабря). Кластеризация. Метод DBSCAN. Визуализация и t-SNE. [Конспект] [Запись лекции]
Семинары
Семинар 1. Типы данных и виды задач машинного обучения [Ноутбук]. Библиотека pandas [Ноутбук].
Семинар 2. Исследование данных. Библиотека scikit-learn. Подготовка данных для линейных моделей. [Ноутбук]
Семинар 3. Векторное дифференцирование [Конспект]. Градиентный спуск [Ноутбук]. А также: [Ноутбук про numpy для самостоятельного изучения].
Семинар 4. Обработка данных. Работа с категориальными и текстовыми данными. Mean-target encoding. [Конспект] [Ноутбук]
Семинар 5. Метрики качества классификации. [Конспект]
Семинар 6. Оценивание вероятностей классов. Калибровка вероятностей. Квантильная регрессия. [Конспект] [Ноутбук]
Семинар 7. Решающие деревья. Критерии информативности. [Конспект] [Ноутбук]
Семинар 8. Разложение ошибки на смещение и разброс. [Конспект]
Семинар 9. Почему градиентный бустинг так устроен? [Конспект] [Ноутбук]
Практические задания
Задание 1. Pandas и распределение студентов ПМИ по элективам.
Мягкий дедлайн: 25.09.2021 23:59 MSK.
Жесткий дедлайн: 28.09.2021 23:59 MSK.
Задание 2. Разведочный анализ данных, линейная регрессия и разработка признаков.
Мягкий дедлайн: 11.10.2021 23:59 MSK.
Жесткий дедлайн: 14.10.2021 23:59 MSK.
Задание 3. Градиентный спуск своими руками.
Мягкий дедлайн: 27.10.2021 23:59 MSK.
Жесткий дедлайн: 29.10.2021 23:59 MSK.
Задание 4. Классификация.
Мягкий дедлайн: 10.11.2021 23:59 MSK.
Жесткий дедлайн: 13.11.2021 23:59 MSK.
Задание 5. Решающие деревья.
Мягий дедлайн: 26.11.2021 23:59 MSK.
Жестокий дедлайн: 26.11.2021 23:59 MSK.
Задание 6. Разложение ошибки на смещение и разброс.
Мягкий дедлайн: 23:59MSK 07.12.2021
Жесткий дедлайн: 23:59MSK 10.12.2021
Задание 7. Обучение бустингов
Мягкий дедлайн: 23:59MSK 18.12.2021
Жесткий дедлайн: 23:59MSK 19.12.2021
Теоретические домашние задания
Теоретические ДЗ не проверяются, но задачи из них могут войти в проверочные работы на семинарах.
Соревнования
Правила участия и оценивания
В соревновании по анализу данных вам предлагается по имеющимся данным решить некоторую задачу, оптимизируя указанную метрику, и отправить ответы для заданного тестового множества. Максимальное количество посылок в сутки ограничено (как правило, разрешается сделать 2 посылки), ближе к концу соревнования вам будем необходимо выбрать 2 посылки, которые вы считаете лучшими. Тестовые данные делятся на публичные и приватные в некотором соотношении, на основе которых строятся публичный и приватный лидерборды соответственно, при этом публичный лидерборд доступен в течение всего соревнования, а приватный строится после его окончания для выбранных вами посылок.
В лидербордах каждого из соревнований присутствуют несколько базовых решений (бейзлайнов), каждое из которых соответствует определённой оценке. Например, для получения оценки не ниже 8 баллов необходимо, чтобы ваше решение на приватном лидерборде оказалось лучше соответствующего бейзлайна. Далее для студента, преодолевшего бейзлайн на N_1 баллов, но не преодолевшего бейзлайн на N_2 балла, итоговая оценка за соревнование рассчитывается по равномерной сетке среди всех таких студентов в зависимости от места в приватном лидерборде среди них; если быть точными, то по следующей формуле:
N_2 - (N_2 - N_1) * i / M,
где M — количество студентов (из всех студентов, изучающих курс), преодолевших бейзлайн на N_1 баллов, но не преодолевших бейзлайн на N_2 балла;
i — место (начиная с 1) студента в приватном лидерборде среди всех таких студентов.
Единственное исключение из формулы — студенты, преодолевшие самый сильный бейзлайн, получают прибавку 1/M к своей оценке.
Чтобы вас не пропустили при проверке решений соревнования, необходимо использовать следующий формат для имени команды (вкладка Team):
«[ПМИ] Имя Фамилия номер_группы»
В течение 3 суток после окончания соревнования в соответствующее задание на anytask необходимо прислать код, воспроизводящий ответы для посылки, фигурирующей в приватном лидерборде. При оформлении кода предполагайте, что данные лежат рядом с ним в папке data, а в результате выполнения кода ответы должны быть записаны в файл solution-N-Username.csv, где N — номер соревнования, Username — ваша фамилия. У нас должна быть возможность запустить код и получить те же ответы, что и в вашей посылке, — в частности, это означает, что:
1. Если вы отправляете файл *.py, мы будем запускать его при помощи команды python *.py в вышеуказанном предположении о местонахождении данных.
2. Если вы отправляете ноутбук *.ipynb, мы последовательно запустим все ячейки ноутбука и будем ожидать в результате его работы формирование файла с ответами.
3. Если вы отправляете код с использованием другого языка программирования, в том же письме направьте нам инструкцию по его запуску с тем, чтобы получить тот же файл с ответами.
В случае отсутствия кода, воспроизводящего результат, в установленный срок студенту выставляется 0 в качестве оценки за соревнование. Студенты, попавшие в топ-3 согласно приватному лидерборду, смогут получить бонусные баллы, если в течение недели после окончания соревнования сдадут в anytask отчет о получении решения, фигурирующего в приватном лидерборде. Если не оговорено иное, использовать любые внешние данные в соревнованиях запрещено. Под внешними данными понимаются размеченные данные, где разметка имеет прямое отношение к решаемой задаче. Грубо говоря, сборник текстов с википедии не считается внешними данными.
В некоторых соревнованиях данные взяты из завершившегося соревнования на Kaggle. Категорически запрещено использовать данные из оригинального соревнования для восстановления целевой переменной на тестовой выборке.
Соревнование 1
Задача: выявление мошеннических тразнакций
Это соревнование на бонусные баллы, оно не является обязательным.
Ссылка для участия: https://www.kaggle.com/t/bbc6f629ab1a4e4b9a79900f94dea96b
Дедлайн: 13.12.2021 23:59MSK
В задании всего один бейзлайн (lightgbm), ненулевые баллы получают решения, преодолевшие его на приватном лидерборде. Все решения выше этого бейзлайна оцениваются по равномерной шкале от 0 до 5.
Обратите внимание на раздел Baselines на Kaggle — там можно найти много полезного.
Бонусы за соревнования
За успешное участие в соревнованиях по анализу данных могут быть выставлены бонусные баллы, которые можно прибавить к оценке за любое практическое или теоретическое домашнее задание, а также за самостоятельную работу. Под успешным участием понимается попадание в топ-10% мест; если соревнование особо сложное и крупное, может рассматриваться и попадание в топ-20% мест. Конкретное число баллов определяется преподавателями и зависит от сложности соревнования и занятого места. За одно соревнование можно получить не более 5 баллов. Для получения оценки необходимо предоставить краткий отчёт о решении задачи.
Контрольная работа
Контрольная работа состоится 3 декабря на лекции. Продолжительность — 80 минут. Проходит в zoom, студенты должны будут писать работу с включенным камерами и расшаренным экраном. На фотографирование и сдачу листочков дополнительно даётся 5 минут.
Экзамен
Полезные материалы
Книги
- Hastie T., Tibshirani R, Friedman J. The Elements of Statistical Learning (2nd edition). Springer, 2009.
- Bishop C. M. Pattern Recognition and Machine Learning. Springer, 2006.
- Mohri M., Rostamizadeh A., Talwalkar A. Foundations of Machine Learning. MIT Press, 2012.
- Murphy K. Machine Learning: A Probabilistic Perspective. MIT Press, 2012.
- Mohammed J. Zaki, Wagner Meira Jr. Data Mining and Analysis. Fundamental Concepts and Algorithms. Cambridge University Press, 2014.
- Willi Richert, Luis Pedro Coelho. Building Machine Learning Systems with Python. Packt Publishing, 2013.
Курсы по машинному обучению и анализу данных
- Курс по машинному обучению К.В. Воронцова
- Видеозаписи лекций курса Школы Анализа Данных, К.В. Воронцов
- Coursera: Машинное обучение от статистики до нейросетей (специализация)
- Coursera: Машинное обучение и анализ данных (специализация)
- Coursera: Введение в машинное обучение, К.В. Воронцов
- Введение в машинное обучение (онлайн-курс НИУ ВШЭ)