МОВС Машинное обучение 2022-23

Содержание

1 О курсе
2 Контакты
3 Материалы курса
- 3.1 Записи консультаций
4 Формула оценивания
5 Домашние задания
6 Коллоквиум
7 Экзамен
8 Литература

О курсе

Занятия проводятся в Zoom по пятницам в 18:00

Контакты

Канал курса в TG: [channel link]

Чат курса в TG: [chat link]

Преподаватели: Кантонистова Елена Олеговна, Максимовская Анастасия Максимовна

Ассистенты	Контакты
Савелий	@Savely_Prokhorov
Марк Блуменау	@markblumenau
Валерия Кондратьева	@pulgatoryrealm
Егор	@Nogaromo

Материалы курса

Ссылка на плейлист курса на YouTube: YouTube-playlist

Ссылка на GitHub с материалами курса: [GitHub repository]

В плане курса (ниже) возможны изменения: как количественные (число занятий), так и качественные (их содержание).

Занятие	Тема	Дата	Материалы для самоподготовки к семинарам	Дополнительные материалы
1, [Запись]	[Материалы] Линейные методы регрессии: Нормализация данных, feature engineering, метрики качества регрессии. Методы оценивания обобщающей способности моделей, кросс-валидация	11.11.22	Вводная в ML лекция и презентация к ней Урок "Введение в МО. Схема проекта по МО" на Stepik
2, [Гр. 1 - Елена, Гр.2 - Настя]	Линейная регрессия. Продолжение	19.11.22
3, [Запись]	Линейные методы классификации - 1: Логистическая регрессия, калибровка вероятностей. kNN	25.11.22	Лекция про классификацию; ноутбук для самопроверки Stepik: кросс-валидация, параметры и гиперпараметры, связь ML-метрик с бизнесом
4, [Запись]	Линейные методы классификации - 2: SVM, SVM-kernels. Метрики качества классификации. Счётчики.	02.12.22	Лекция про SVM и метрики классификации Неоцениваемый тест	Ноутбук с семинара
5, [Запись]	Снижение размерности данных: Методы отбора признаков, расширения SVD, MDS, t-SNE	07.12.22	Лекция
6, [Гр.1 (Елена), Гр.2 (Настя)]	Решающие деревья и их композиции: Алгоритм построения дерева, критерии информативности (регрессия и классификация), обработка пропусков для деревьев, стрижка и регуляризация	09.12.22	Лекция (с 25-й минуты), Конспект Евгения Соколова Неоцениваемый тест по деревьям и AUC-ROC
7, [Запись]	Решающие деревья и их композиции - 2: Разложение ошибки на шум, смещение и разброс; бэггинг; случайный лес	16.12.22	Параграф "Разложение ошибки на смещение и разброс" Уроки 6.4, 6.5 на Stepik Лекция про разложение ошибки и случайный лес, Конспект к ней
8, [Запись]	Решающие деревья и их композиции - 3: Бустинг, градиентный бустинг над решающими деревьями, различные интерпретации GB; прочие подходы к ансамблированию	19.12.22	Лекция, Конспект про градиентный бустинг, Текст про его модификации

9, [Запись]	Быстрый поиск ближайших соседей, LSH	20.01.23	Модуль на Stepik и домашка по KNN + LSH	Статья по LSH на Medium
10, [Запись]	Интерпретируемость ML-моделей: SHAP-values, LIME	27.01.23	Статья про SHAP, Статья про Lime (SHAP там тоже есть)
11, [Запись]	Кластеризация: K-means, (H)DBSCAN, метрики качества (внутренние и внешние)	03.02.23	Лекция, Слайды к ней, Конспект Евгения Соколова, Статья про DBSCAN, Статья про HDBSCAN
Доп, Запись	Татьяна Гайнцева "Отличия industrial от research ML"	10.02.23
12, Запись	Кластеризация - 2: Иерархическая кластеризация, подходы к графовой кластеризации	17.02.23
13, Запись	Рекомендательные системы и ранжирование: Ранжирование, метрики качества ранжирования (попарные, поточечные, списковые)
14, Запись	Рекомендательные системы и ранжирование - 2: Переход от ранжирования к рекомендациям, метрики качества рекомендаций. Коллаборативная фильтрация, матричные разложения и факторизационные машины
-, Запись	AutoML: Подбор гиперпараметров (optunа), фреймворки (H2O, TPOT, auto-sklearn и MLBox)
-, Запись	Прогнозирование временных рядов: Особенности работы со временными рядами (сэмплинг), характеристики временных рядов (стационарность, сезонность, автокорреляция), библиотеки для прогнозирования TS (prophet)
-, Запись
-, Запись

Записи консультаций

1. Консультация к соревнованию First Step in NLP Bootcamp (05.12.22) [Notion-страница с советами]

2. Консультация к коллоквиуму (27.12.22)

Формула оценивания

Оценка = 0 * О_{Тренировочные тесты} + 0.075 * О_{Промежуточные тесты} + 0.075 * О _{Взаимопроверка} + 0.1 * О_{Коллоквиум} + 0.15 * О_{Экзамен} + 0.6 * О_ДЗ

Автоматы: Если накопленная оценка больше или равна 8, то она по желанию студента ставится в качестве итоговой оценки. Для получения автомата также необходимо получить за коллоквиум не менее 6 баллов.

P.S. Под накопленной оценкой до экзамена понимаем Накоп_до_экза = Оценка / 0.85

Домашние задания

Инвайт в Anytask: T18GYvZ

LinReg + inference: [Тетрадка] [Видео] | Дедлайн - 04.12.22 23:59 МСК
First Step in NLP Bootcamp: [Соревнование] [Материалы буткемпа] | Дедлайн - 11.12.22 17:00 МСК
Сравнение деревянных моделей + SQL: [Ноутбук] | Мягкий дедлайн - 11.02.23 23:59 МСК
Кластеризация
RecSys
(Бонус) Большая практическая работа // Самостоятельная реализация алгоритмов МО

Коллоквиум

Демо-вариант, Темы для подготовки

Коллоквиум ~~проёдет~~прошёл 28.12.22 в 19:30

Материалы: GitHub этого курса, GitHub первого модуля МАДа, Stepik, Лекции Евгения Соколова

Ссылка на варианты коллоквиума на платформе

Правила: 80 мин, 2 варианта, пользоваться можно всем (кроме мессенджеров и людей), подключиться нужно со включенной камерой, при зафиксированном факте списывания оценка за коллок обнуляется всем, кто к этому списыванию был непосредственно причастен

Экзамен

Литература

Hastie T., Tibshirani R, Friedman J. The Elements of Statistical Learning (2nd edition). Springer, 2009
Bishop C. M. Pattern Recognition and Machine Learning. Springer, 2006.
Willi Richert, Luis Pedro Coelho. Building Machine Learning Systems with Python. Packt Publishing, 2013.

МОВС Машинное обучение 2022-23

Содержание

О курсе

Контакты

Материалы курса

Записи консультаций

Формула оценивания

Домашние задания

Коллоквиум

Экзамен

Литература

Навигация

Персональные инструменты

Пространства имён

Варианты

Просмотры

Действия

Поиск

Навигация

Инструменты