МОВС Ключевой семинар Машинное обучение, ML (2023-24 уч. год, 2-3 модули)
Содержание
О курсе
На курсе студенты узнают о классических и современных алгоритмах машинного обучения, научатся подходам для обработки и анализа данных. В курсе большое внимание уделяется линейным и нелинейным моделям регрессии и классификации. Часть курса посвящена обучению без учителя, в частности, методам снижения размерности и кластеризации. В курсе также изучаются такие популярные приложения методов машинного обучения как ранжирование, рекомендательные системы, поиск аномалий и временные ряды.
Занятия проводятся в Zoom:
Базовая группа: Среда, 18.00, Ссылка
Продвинутая группа: Суббота, 13.40, Ссылка
Контакты
Чат курса в TG: https://t.me/+Qvc86ptxVu42OWYy
Преподаватели: Рысьмятова Анастасия, Зехов Матвей
План занятий: Кантонистова Елена Олеговна
Ассистенты
Ассистент | Telegram |
---|---|
Юркин Андрей | @andreyyur1107 |
Москаленко Александр | @tau_ceti_pn |
Вересников Артём | @x7mlpvb |
Шанарова Надежда | @kronesine |
Матяш Дарья | @bwdare |
Бузилов Григорий | @GBuzilov |
Материалы курса
Плейлист курса на YouTube: https://www.youtube.com/playlist?list=PLmA-1xX7IuzCglOyTkTZ_bBHKd8eUr8pC
GitHub с материалами курса: https://github.com/hse-mlds/ml
Занятие | Тема | Дата | Ссылки | ||||
---|---|---|---|---|---|---|---|
1, Запись (базовая) Запись (продвинутая) |
Базовая: Вводная лекция, линейная регрессия, основные понятия машинного обучения Продвинутая: Вводные понятия, матричное дифференцирование, явный вывод решения задачи линейной регрессиию |
03.11.23 // 11.11.23 | Презентация (базовая) Конспект (продвинутая) | ||||
2, Запись (базовая) Запись (продвинутая) |
Базовая: L1/L2 регуляризация, кросс-валидация, метрики качества регрессии |
08.11.23 // 11.11.23 | Конспект (продвинутая) Ноутбук | ||||
3,Запись (базовая) Запись (продвинутая) |
Базовая: Градиентный спуск и модификации градиентного спуска Продвинутая: Кросс-валидация, R^2, вводные понятия классификации |
15.11.23 // 18.11.23 | Конспект (базовая) Ноутбук (базовая) Конспект (продвинутая) | ||||
4, Запись (базовая) Запись (продвинутая) |
Базовая: Модификации градиентного спуска |
15.11.23 // 18.11.23 | Конспект (базовая) Ноутбук (базовая) Конспект (продвинутая) | ||||
5, Запись (базовая) Запись (базовая, доп) Запись (продвинутая) |
Базовая: Линейная классификация, логистическая регрессия. Доп. занятие: Метрики качества классификации, решение задач. Продвинутая: Решение задач по линейной регрессии и классификации |
22.11.23 // 25.11.23 | Конспект (базовая) Конспект (продвинутая) | ||||
6, Запись (базовая) Запись (базовая, доп) Запись (продвинутая) |
Базовая: Метод опорных векторов. Доп. занятие: Разбор ноутбуков с кодом. Продвинутая: Многоклассовая классификация, калибровка, решение задач. |
22.11.23 // 25.11.23 | Конспект (базовая) Ноутбук 1 (базовая) Ноутбук 2 (базовая) Ноутбук 3 (базовая) Конспект (продвинутая) Ноутбук (продвинутая) | ||||
7, Запись (базовая) Запись (продвинутая) |
Алгоритм построения дерева, критерии информативности (регрессия и классификация), обработка пропусков для деревьев, стрижка и регуляризация |
29.11.23 // 02.12.23 | [ Конспект (базовая)] Конспект (продвинутая) Ноутбук (продвинутая) | ||||
8, Запись (базовая) Запись (продвинутая) |
Разложение ошибки на шум, смещение и разброс; бэггинг; случайный лес |
06.12.23 // 09.12.23 | Конспект (продвинутая) | ||||
9, Запись (базовая) Консультация (базовая) Запись (продвинутая) |
Бустинг, градиентный бустинг над решающими деревьями, различные интерпретации GB; |
13.12.23 // 16.12.23 | Конспект (продвинутая) Ноутбук (продвинутая) | ||||
10, Запись (базовая) LSH Запись (базовая) KNN Запись (продвинутая) LSH Запись (продвинутая) KNN |
Быстрый поиск ближайших соседей (KNN), LSH | 24.01.24 // 23.01.24 | Конспект №1 (базовая) Конспект №2 (базовая) Конспект №1 (продвинутая) Конспект №2 (продвинутая) | ||||
11, Запись (базовая) Запись (продвинутая) Интерпретируемость Запись (продвинутая) SHAP, LIME |
Интерпретируемость ML-моделей, SHAP-values, LIME | 31.01.24 // 30.01.23 | Конспект (базовая) Ноутбук (базовая) Конспект (продвинутая) | ||||
12, Запись (базовая) Запись (продвинутая) |
Кластеризация, K-means, (H)DBSCAN, метрики качества (внутренние и внешние) | ||||||
13, Запись (базовая) Запись (продвинутая) |
Иерархическая кластеризация, подходы к графовой кластеризации. Optuna |
||||||
14, Запись (базовая) Запись (продвинутая) |
Ранжирование, метрики качества ранжирования (попарные, поточечные, списковые). Основные подходы к построению рекомендаций |
15, Запись |
Бустинги и факторизационные машины для рекомендаций |
||||
16, Запись | Детекция аномалий и дисбаланс классов | ... | |||||
17, Запись | Особенности работы со временными рядами (сэмплинг), характеристики временных рядов (стационарность, сезонность, автокорреляция), библиотеки для прогнозирования TS (prophet) |
Записи консультаций
Формула оценивания
Оценка = 0 * ОТренировочные тесты + 0.2 * ОStepik + 0.1 * ОКонтрольная + 0.2 * ОЭкзамен + 0.5 * ОДЗ (1)
Автоматы: Если накопленная до экзамена оценка (до округления) больше или равна 7, то она (после округления) по желанию студента ставится в качестве итоговой оценки. Для получения автомата также необходимо получить за контрольную не менее 6 баллов (неокругленных).
Под накопленной оценкой до экзамена понимаем Накоп_до_экзамена = Оценка / 0.8
В случае если накопленная до экзамена оценка (опять же, до округления) < 7 и/или студент получил за коллоквиум во 2-м модуле < 6 баллов, то автомат за экзамен не предусмотрен. Итоговая оценка тогда считается по формуле (1), округляется и ставится в зачетку.
Stepik
Дедлайн прохождения курса: 10 марта 23.59 мск.
Тренировочные тесты
- Линейная регрессия: Тест
- Метрики классификации Тест
- SVM, Калибровочные кривые, многокласовая классификация Тест
- Решающие деревья
- Композиции
- Быстрый kNN, интерпретация моделей
- Кластеризация
- RecSys
- Аномалии и временные ряды
Домашние задания
Инвайты в Anytask: XB8hEr5
(гр.1 -- базовая (А. Рысьмятова));
3jpWkPz
(гр.2 -- продвинутая (М. Зехов))
- Линейная регрессия: Ноутбук, ‘’’Мягкий дедлайн: 29.11.2023 23.59 МСК, Жёсткий дедлайн: 06.12.2023 23.59 МСК
- Линейная классификация и отбор признаков: Ноутбук ‘’’Мягкий дедлайн: 16.12.2023 23.59 МСК, Жёсткий дедлайн: 23.12.2023 23.59 МСК
- Решающие деревья. Ансамбли над решающими деревьями
- Кластеризация
- Аномалии, RecSys
Контрольная
Демо-варинат : Скоро
Дата: 22 декабря (ориентировочно)
Резервная дата:
Место: Контрольная пройдёт в зуме. Рассадка по зумам и ссылки появятся незадолго перед контрольной.
Длительность: 80 минут
Содержание: Два теоретических вопроса и три задачи
Правила: Работа выполняется от руки на бумаге. Пишем с одной камерой и включённой демонстрацией экрана (всего экрана, а не конкретного окна).
Пользоваться нельзя ничем. Читлистов нет. При зафиксированном факте списывания оценка обнуляется для всех непосредственно причастных.
Экзамен
Информация появится позднее
Литература
- Hastie T., Tibshirani R, Friedman J. The Elements of Statistical Learning (2nd edition). Springer, 2009
- Bishop C. M. Pattern Recognition and Machine Learning. Springer, 2006.
- Willi Richert, Luis Pedro Coelho. Building Machine Learning Systems with Python. Packt Publishing, 2013.
- Учебник по Машинному обучению: https://academy.yandex.ru/handbook/ml