МОВС Ключевой семинар Машинное обучение, ML (2023-24 уч. год, 2-3 модули)

Содержание

1 О курсе
2 Контакты
- 2.1 Ассистенты
3 Материалы курса
- 3.1 Записи консультаций
4 Формула оценивания
5 Тренировочные тесты
6 Домашние задания
7 Контрольная
8 Экзамен
9 Литература

О курсе

На курсе студенты узнают о классических и современных алгоритмах машинного обучения, научатся подходам для обработки и анализа данных. В курсе большое внимание уделяется линейным и нелинейным моделям регрессии и классификации. Часть курса посвящена обучению без учителя, в частности, методам снижения размерности и кластеризации. В курсе также изучаются такие популярные приложения методов машинного обучения как ранжирование, рекомендательные системы, поиск аномалий и временные ряды.

Занятия проводятся в Zoom:

Базовая группа: Среда, 18.00, Ссылка Продвинутая группа: Суббота, 13.40, Ссылка

Контакты

Чат курса в TG: https://t.me/+Qvc86ptxVu42OWYy

Преподаватели: Рысьмятова Анастасия, Зехов Матвей

План занятий: Кантонистова Елена Олеговна

Ассистенты

Ассистент	Telegram
Юркин Андрей	@andreyyur1107
Москаленко Александр	@tau_ceti_pn
Вересников Артём	@x7mlpvb
Шанарова Надежда	@kronesine
Матяш Дарья	@bwdare
Бузилов Григорий	@GBuzilov

Материалы курса

Плейлист курса на YouTube: https://www.youtube.com/playlist?list=PLmA-1xX7IuzCglOyTkTZ_bBHKd8eUr8pC

GitHub с материалами курса: https://github.com/hse-mlds/ml

Занятие	Блок	Тема	Дата	Ссылки
1, Запись (базовая) Запись (продвинутая)	Линейная регрессия	Материалы Нормализация данных, feature engineering, метрики качества регрессии. Методы оценивания обобщающей способности моделей, кросс-валидация	03.11.23 // 11.11.23	Презентация (базовая) Конспект (продвинутая)
2, Запись (базовая) Запись (продвинутая)	Линейная регрессия	Продолжение	08.11.23 // 11.11.23	Конспект (продвинутая) Ноутбук
3, Запись	Линейная классификация	Логистическая регрессия, калибровка вероятностей. kNN (метрический метод)	15.11.23 // 18.11.23
4, Запись	Линейная классификация	SVM, SVM-kernels. Метрики качества классификации. Счётчики.	15.11.23 // 18.11.23
5, Запись	Снижение размерности данных	Методы отбора признаков, расширения SVD, MDS, t-SNE	22.11.23 // 25.11.23
6, Запись	Решающие деревья и их композиции	Алгоритм построения дерева, критерии информативности (регрессия и классификация), обработка пропусков для деревьев, стрижка и регуляризация	29.11.23 // 02.12.23
7, Запись		Разложение ошибки на шум, смещение и разброс; бэггинг; случайный лес	06.12.23 // 09.12.23
8, Запись		Бустинг, градиентный бустинг над решающими деревьями, различные интерпретации GB; Прочие подходы к ансамблированию	13.12.23 // 16.12.23

9, Запись	Быстрый поиск ближайших соседей	LSH	20.12.23 // 21.12.23
10, Запись	Интерпретируемость ML-моделей	SHAP-values, LIME
11, Запись	Кластеризация	K-means, (H)DBSCAN, метрики качества (внутренние и внешние)
12, Запись	Кластеризация	Иерархическая кластеризация, подходы к графовой кластеризации. Optuna
13, Запись	Рекомендательные системы и ранжирование	Ранжирование, метрики качества ранжирования (попарные, поточечные, списковые). Основные подходы к построению рекомендаций
14, Запись	Рекомендательные системы и ранжирование	Бустинги и факторизационные машины для рекомендаций
15, Запись	Детекция аномалий и дисбаланс классов	...
16, Запись	Прогнозирование временных рядов	Особенности работы со временными рядами (сэмплинг), характеристики временных рядов (стационарность, сезонность, автокорреляция), библиотеки для прогнозирования TS (prophet)

Записи консультаций

Формула оценивания

Оценка = 0 * О_{Тренировочные тесты} + 0.2 * О_Stepik + 0.1 * О_{Контрольная} + 0.2 * О_{Экзамен} + 0.5 * О_ДЗ (1)

Автоматы: Если накопленная до экзамена оценка (до округления) больше или равна 7, то она (после округления) по желанию студента ставится в качестве итоговой оценки. Для получения автомата также необходимо получить за контрольную не менее 6 баллов (неокругленных).

Под накопленной оценкой до экзамена понимаем Накоп_до_экзамена = Оценка / 0.8

В случае если накопленная до экзамена оценка (опять же, до округления) < 7 и/или студент получил за коллоквиум во 2-м модуле < 6 баллов, то автомат за экзамен не предусмотрен. Итоговая оценка тогда считается по формуле (1), округляется и ставится в зачетку.

Тренировочные тесты

Линейные модели
Feature Engineering, снижение размерности
Решающие деревья
Композиции
Быстрый kNN, интерпретация моделей
Кластеризация
RecSys

Домашние задания

Инвайт в Anytask:

Линейная регрессия
Линейная классификация
Решающие деревья. Ансамбли над решающими деревьями
Кластеризация
Аномалии, RecSys

Контрольная

Информация появится позднее

Экзамен

Информация появится позднее

Литература

Hastie T., Tibshirani R, Friedman J. The Elements of Statistical Learning (2nd edition). Springer, 2009
Bishop C. M. Pattern Recognition and Machine Learning. Springer, 2006.
Willi Richert, Luis Pedro Coelho. Building Machine Learning Systems with Python. Packt Publishing, 2013.
Учебник по Машинному обучению: https://academy.yandex.ru/handbook/ml

МОВС Ключевой семинар Машинное обучение, ML (2023-24 уч. год, 2-3 модули)

Содержание

О курсе

Контакты

Ассистенты

Материалы курса

Записи консультаций

Формула оценивания

Тренировочные тесты

Домашние задания

Контрольная

Экзамен

Литература

Навигация

Персональные инструменты

Пространства имён

Варианты

Просмотры

Действия

Поиск

Навигация

Инструменты