МОВС Машинное обучение 2022-23

Содержание

1 О курсе
2 Контакты
3 Материалы курса
- 3.1 Записи консультаций
4 Формула оценивания
5 Домашние задания
6 Коллоквиум
7 Экзамен
8 Литература

О курсе

Занятия проводятся в Zoom по пятницам в 18:00

Контакты

Канал курса в TG: [channel link]

Чат курса в TG: [chat link]

Преподаватели: Кантонистова Елена Олеговна, Максимовская Анастасия Максимовна

Ассистенты	Контакты
Савелий	@Savely_Prokhorov
Марк Блуменау	@markblumenau
Валерия Кондратьева	@pulgatoryrealm
Егор	@Nogaromo

Материалы курса

Ссылка на плейлист курса на YouTube: YouTube-playlist

Ссылка на GitHub с материалами курса: [GitHub repository]

В плане курса (ниже) возможны изменения: как количественные (число занятий), так и качественные (их содержание).

Занятие	Тема	Дата	Материалы для самоподготовки к семинарам	Дополнительные материалы
1, [Запись]	[Материалы] Линейные методы регрессии: Нормализация данных, feature engineering, метрики качества регрессии. Методы оценивания обобщающей способности моделей, кросс-валидация	11.11.22	Вводная в ML лекция и презентация к ней Урок "Введение в МО. Схема проекта по МО" на Stepik
2, [Гр. 1 - Елена, Гр.2 - Настя]	Линейная регрессия. Продолжение	19.11.22
3, [Запись]	Линейные методы классификации - 1: Логистическая регрессия, калибровка вероятностей. kNN	25.11.22	Лекция про классификацию; ноутбук для самопроверки Stepik: кросс-валидация, параметры и гиперпараметры, связь ML-метрик с бизнесом
4, [Запись]	Линейные методы классификации - 2: SVM, SVM-kernels. Метрики качества классификации. Счётчики.	02.12.22	Лекция про SVM и метрики классификации Неоцениваемый тест	Ноутбук с семинара
5, [Запись]	Снижение размерности данных: Методы отбора признаков, расширения SVD, MDS, t-SNE	07.12.22	Лекция
6, [Гр.1 (Елена), Гр.2 (Настя)]	Решающие деревья и их композиции: Алгоритм построения дерева, критерии информативности (регрессия и классификация), обработка пропусков для деревьев, стрижка и регуляризация	09.12.22	Лекция (с 25-й минуты), Конспект Евгения Соколова Неоцениваемый тест по деревьям и AUC-ROC
7, [Запись]	Решающие деревья и их композиции - 2: Разложение ошибки на шум, смещение и разброс; бэггинг; случайный лес	16.12.22	Параграф "Разложение ошибки на смещение и разброс" Уроки 6.4, 6.5 на Stepik Лекция про разложение ошибки и случайный лес, Конспект к ней
8, [Запись]	Решающие деревья и их композиции - 3: Бустинг, градиентный бустинг над решающими деревьями, различные интерпретации GB; прочие подходы к ансамблированию	19.12.22	Лекция, Конспект про градиентный бустинг, Текст про его модификации

9, [Запись]	Быстрый поиск ближайших соседей, LSH	20.01.23	Модуль на Stepik и домашка по KNN + LSH	Статья по LSH на Medium
10, [Запись]	Интерпретируемость ML-моделей: SHAP-values, LIME	27.01.23	Статья про SHAP, Статья про Lime (SHAP там тоже есть)
11, [Запись]	Кластеризация: K-means, (H)DBSCAN, метрики качества (внутренние и внешние)	03.02.23	Лекция, Слайды к ней, Конспект Евгения Соколова, Статья про DBSCAN, Статья про HDBSCAN
Доп, [Запись]	Татьяна Гайнцева "Отличия industrial от research ML"	10.02.23
12, [Запись]	Кластеризация - 2, Optuna Иерархическая кластеризация, подходы к графовой кластеризации	17.02.23	Лекция Е. Соколова по графовой кластеризации, Текст (Eng) про спектральную кластеризацию
13, [Запись]	Рекомендательные системы и ранжирование: Ранжирование, метрики качества ранжирования (попарные, поточечные, списковые), основные подходы к построению рекомендаций	24.02.23
14, [Запись]	Рекомендательные системы и ранжирование - 2: Бустинги и факторизационные машины для рекомендаций	03.03.23	Конспект 1, Конспект 2, Статья про FM (eng)	Статья про метрики качества ранжирования
15, [Запись]	Детекция аномалий и дисбаланс классов	10.03.23	Статья Дьяконова про дисбаланс классов, Конспект про детекцию аномалий
16, [Запись]	Прогнозирование временных рядов: Особенности работы со временными рядами (сэмплинг), характеристики временных рядов (стационарность, сезонность, автокорреляция), библиотеки для прогнозирования TS (prophet)	17.03.23

Записи консультаций

1. Консультация к соревнованию First Step in NLP Bootcamp (05.12.22) [Notion-страница с советами]

2. Консультация к коллоквиуму (27.12.22)

Формула оценивания

Оценка = 0 * О_{Тренировочные тесты} + 0.1 * О_{Промежуточные тесты} + 0.1 * О_{Коллоквиум} + 0.2 * О_{Экзамен} + 0.6 * О_ДЗ (1)

Автоматы: Если накопленная до экзамена оценка (до округления) больше или равна 8, то она (после округления) по желанию студента ставится в качестве итоговой оценки. Для получения автомата также необходимо получить за коллоквиум не менее 6 баллов (неокругленных).

Под накопленной оценкой до экзамена понимаем Накоп_до_экзамена = Оценка / 0.8

В случае если накопленная до экзамена оценка (опять же, до округления) < 8 и/или студент получил за коллоквиум во 2-м модуле < 6 баллов, то автомат за экзамен не предусмотрен. Итоговая оценка тогда считается по формуле (1), округляется и ставится в зачетку.

Домашние задания

Инвайт в Anytask: T18GYvZ

LinReg + inference: [Тетрадка] [Видео] | Дедлайн - 04.12.22 23:59 МСК
First Step in NLP Bootcamp: [Соревнование] [Материалы буткемпа] | Дедлайн - 11.12.22 17:00 МСК
Сравнение деревянных моделей + SQL: [Ноутбук] | Мягкий дедлайн - 11.02.23 23:59 МСК
Кластеризация: [Ноутбук] | Мягкий дедлайн - 05.03.23 23:59 МСК
RecSys: [Ноутбук] | Жёсткий дедлайн - ~~24.03.23~~ 25.03.23 23:59 МСК

Коллоквиум

Демо-вариант, Темы для подготовки

Коллоквиум ~~проёдет~~прошёл 28.12.22 в 19:30

Материалы: GitHub этого курса, GitHub первого модуля МАДа, Stepik, Лекции Евгения Соколова

Ссылка на варианты коллоквиума на платформе

Правила: 80 мин, 2 варианта, пользоваться можно всем (кроме мессенджеров и людей), подключиться нужно со включенной камерой, при зафиксированном факте списывания оценка за коллок обнуляется всем, кто к этому списыванию был непосредственно причастен

Экзамен

Экзамен по настоящему курсу пройдет ~~ориентировочно~~ 31 мая в формате собеседования. На каждого студента положено не больше 20 мин. Будет задано по меньшей мере два вопроса на понимание теории и одна задача. Времени на подготовку не будет

Список примеров и примеры задач: GoogleDoc

Литература

Hastie T., Tibshirani R, Friedman J. The Elements of Statistical Learning (2nd edition). Springer, 2009
Bishop C. M. Pattern Recognition and Machine Learning. Springer, 2006.
Willi Richert, Luis Pedro Coelho. Building Machine Learning Systems with Python. Packt Publishing, 2013.

МОВС Машинное обучение 2022-23

Содержание

О курсе

Контакты

Материалы курса

Записи консультаций

Формула оценивания

Домашние задания

Коллоквиум

Экзамен

Литература

Навигация

Персональные инструменты

Пространства имён

Варианты

Просмотры

Действия

Поиск

Навигация

Инструменты