МОВС Машинное обучение 2022-23

Материал из Wiki - Факультет компьютерных наук
Перейти к: навигация, поиск

О курсе

Занятия проводятся в Zoom по пятницам в 18:00

Онлайн-курс в дополнение к парам: online-course link

Контакты

Канал курса в TG: [channel link]

Чат курса в TG: [chat link]

Преподаватели: Кантонистова Елена Олеговна, Максимовская Анастасия Максимовна

Ассистент Контакты
Савелий @Savely_Prokhorov

Материалы курса

Ссылка на плейлист курса на YouTube: YouTube-playlist

Ссылка на GitHub с материалами курса: [GitHub repository]

В плане курса (ниже) возможны изменения: как количественные (число занятий), так и качественные (их содержание).

Занятие Тема Дата Материалы для самоподготовки к семинарам Дополнительные материалы
1, [Запись]

[Материалы] Линейные методы регрессии:

Нормализация данных, feature engineering, метрики качества регрессии. Методы оценивания обобщающей способности моделей, кросс-валидация

11.11.22
2, Запись

Линейные методы классификации:

Логистическая регрессия, калибровка вероятностей, метрики качества классификация

19.11.22
3, Запись

Линейные методы классификации - 2:

SVM, SVM-kernels, многоклассовая и multilabel-классификации

25.11.22
4, Запись

Метрические классификаторы:

kNN, naive Bayes classifier, быстрый поиск ближайших соседей

02.12.22
5, Запись

Обработка признаков и работа с выбросами:

Способы работы с пропущенными значениями, поиск аномалий, кодирование категориальных признаков (счётчики)

09.12.22
6, Запись

Снижение размерности данных:

Методы отбора признаков, расширения SVD, MDS, t-SNE

16.12.22
7, Запись

Решающие деревья и их композиции:

Алгоритм построения дерева, критерии информативности (регрессия и классификация), обработка пропусков для деревьев, стрижка и регуляризация

8, Запись

Решающие деревья и их композиции - 2:

Разложение ошибки на шум, смещение и разброс; бэггинг; случайный лес

9, Запись

Решающие деревья и их композиции - 3:

Бустинг, градиентный бустинг над решающими деревьями, различные интерпретации GB; прочие подходы к ансамблированию

10, Запись

Интерпретируемость ML-моделей:

SHAP-values, LIME

11, Запись

AutoML:

Подбор гиперпараметров (optunа), фреймворки (H2O, TPOT, auto-sklearn и MLBox)

12, Запись

Прогнозирование временных рядов:

Особенности работы со временными рядами (сэмплинг), характеристики временных рядов (стационарность, сезонность, автокорреляция), библиотеки для прогнозирования TS (prophet)

13, Запись

Кластеризация:

K-means, (H)DBSCAN, метрики качества (внутренние и внешние)

14, Запись

Кластеризация - 2:

Иерархическая кластеризация, подходы к графовой кластеризации

15, Запись

Рекомендательные системы и ранжирование:

Ранжирование, метрики качества ранжирования (попарные, поточечные, списковые)

16, Запись

Рекомендательные системы и ранжирование - 2:

Переход от ранжирования к рекомендациям, метрики качества рекомендаций. Коллаборативная фильтрация, матричные разложения и факторизационные машины

17, Запись
18, Запись

Записи консультаций

Формула оценивания

Оценка = 0 * ОТренировочные тесты + 0.075 * ОПромежуточные тесты + 0.075 * О Взаимопроверка + 0.1 * ОКоллоквиум + 0.15 * ОЭкзамен + 0.6 * ОДЗ

Автоматы: Если накопленная оценка больше или равна 8, то она по желанию студента ставится в качестве итоговой оценки. Для получения автомата также необходимо получить за коллоквиум не менее 6 баллов.

P.S. Под накопленной оценкой до экзамена понимаем Накоп_до_экза = Оценка / 0.85

Домашние задания

  • LinReg + OOP
  • LinearClassification + SQL
  • Сравнение деревянных моделей + inference


  • Снижение размерности и визуализация
  • Кластеризация
  • Большая практическая работа // Kaggle // работа с текстами средствами ML-моделей (?) // RecSys (ML)

Литература

  • Hastie T., Tibshirani R, Friedman J. The Elements of Statistical Learning (2nd edition). Springer, 2009
  • Bishop C. M. Pattern Recognition and Machine Learning. Springer, 2006.
  • Willi Richert, Luis Pedro Coelho. Building Machine Learning Systems with Python. Packt Publishing, 2013.