МОВС Ключевой семинар Машинное обучение, ML (2023-24 уч. год, 2-3 модули) — различия между версиями

Материал из Wiki - Факультет компьютерных наук
Перейти к: навигация, поиск
(create page)
 
(UPD format)
Строка 38: Строка 38:
 
{| class="wikitable"
 
{| class="wikitable"
 
|-
 
|-
  ! Занятие !! Тема !! Дата !! Ссылки  
+
  ! Занятие !! Блок !! Тема !! Дата !! Ссылки  
 
|-
 
|-
| style="background:#eaecf0;" | '''1''', [[ Запись]] ||
+
| style="background:#eaecf0;" | '''1''', [[ Запись]]  
[[ Материалы]] ''Линейные методы регрессии:''
+
|rowspan="2"| ''Линейная регрессия''
 
+
|| [[ Материалы]] Нормализация данных, feature engineering, метрики качества регрессии. Методы оценивания обобщающей способности моделей, кросс-валидация  
Нормализация данных, feature engineering, метрики качества регрессии. Методы оценивания обобщающей способности моделей, кросс-валидация  
+
 
||  ||   
 
||  ||   
 
|-
 
|-
 
| style="background:#eaecf0;" | '''2''', [[ Запись]] ||  
 
| style="background:#eaecf0;" | '''2''', [[ Запись]] ||  
''Линейная регрессия. Продолжение''
+
Продолжение
 
||  ||  
 
||  ||  
 
|-
 
|-
| style="background:#eaecf0;" | '''3''', [[ Запись]] ||  
+
| style="background:#eaecf0;" | '''3''', [[ Запись]]  
''Линейные методы классификации - 1:''
+
|rowspan="2"| ''Линейная классификация''
 
+
|| Логистическая регрессия, калибровка вероятностей. kNN (метрический метод)
Логистическая регрессия, калибровка вероятностей. kNN  
+
 
||  ||  
 
||  ||  
 
|-
 
|-
 
| style="background:#eaecf0;" | '''4''', [[ Запись]] ||  
 
| style="background:#eaecf0;" | '''4''', [[ Запись]] ||  
''Линейные методы классификации - 2:''
 
 
 
SVM, SVM-kernels. Метрики качества классификации. Счётчики.
 
SVM, SVM-kernels. Метрики качества классификации. Счётчики.
 
||  ||  
 
||  ||  
 
|-
 
|-
| style="background:#eaecf0;" | '''5''', [[ Запись]] ||  
+
| style="background:#eaecf0;" | '''5''', [[ Запись]]  
''Снижение размерности данных:''
+
|| ''Снижение размерности данных''
 
+
|| Методы отбора признаков, расширения SVD, MDS, t-SNE
Методы отбора признаков, расширения SVD, MDS, t-SNE
+
 
||  ||
 
||  ||
 
|-
 
|-
| style="background:#eaecf0;" | '''6''', [[ Запись]] ||  
+
| style="background:#eaecf0;" | '''6''', [[ Запись]]  
''Решающие деревья и их композиции:''
+
|rowspan="3"| ''Решающие деревья и их композиции''
 
+
|| Алгоритм построения дерева, критерии информативности (регрессия и классификация), обработка пропусков для деревьев, стрижка и регуляризация  
Алгоритм построения дерева, критерии информативности (регрессия и классификация), обработка пропусков для деревьев, стрижка и регуляризация  
+
 
||  ||  
 
||  ||  
 
|-
 
|-
 
| style="background:#eaecf0;" | '''7''', [[ Запись]] ||  
 
| style="background:#eaecf0;" | '''7''', [[ Запись]] ||  
''Решающие деревья и их композиции - 2:''
 
 
 
Разложение ошибки на шум, смещение и разброс; бэггинг; случайный лес
 
Разложение ошибки на шум, смещение и разброс; бэггинг; случайный лес
 
||  ||  
 
||  ||  
 
|-
 
|-
 
| style="background:#eaecf0;" | '''8''', [[ Запись]] ||  
 
| style="background:#eaecf0;" | '''8''', [[ Запись]] ||  
''Решающие деревья и их композиции - 3:''
 
 
 
Бустинг, градиентный бустинг над решающими деревьями, различные интерпретации GB; прочие подходы к ансамблированию  
 
Бустинг, градиентный бустинг над решающими деревьями, различные интерпретации GB; прочие подходы к ансамблированию  
 
|| ||  
 
|| ||  
Строка 88: Строка 78:
 
| Конец первого модуля курса |
 
| Конец первого модуля курса |
 
|-
 
|-
| style="background:#eaecf0;" | '''9''', [[ Запись]] ||
+
| style="background:#eaecf0;" | '''9''', [[ Запись]]  
Быстрый поиск ближайших соседей, LSH
+
|| ''Быстрый поиск ближайших соседей''
 +
|| LSH
 
|| ||  
 
|| ||  
 
|-
 
|-
| style="background:#eaecf0;" | '''10''', [[ Запись]] ||
+
| style="background:#eaecf0;" | '''10''', [[ Запись]]  
''Интерпретируемость ML-моделей:''
+
|| ''Интерпретируемость ML-моделей''
 
+
|| SHAP-values, LIME
SHAP-values, LIME
+
 
|| ||  
 
|| ||  
 
|-
 
|-
| style="background:#eaecf0;" | '''11''', [[ Запись]] ||
+
| style="background:#eaecf0;" | '''11''', [[ Запись]]  
''Кластеризация:''
+
|rowspan="2"| ''Кластеризация''
 
+
|| K-means, (H)DBSCAN, метрики качества (внутренние и внешние)
K-means, (H)DBSCAN, метрики качества (внутренние и внешние)
+
 
||  ||
 
||  ||
 
|-
 
|-
 
| style="background:#eaecf0;" | '''12''', [[ Запись]] ||   
 
| style="background:#eaecf0;" | '''12''', [[ Запись]] ||   
''Кластеризация - 2, Optuna''
+
Иерархическая кластеризация, подходы к графовой кластеризации. Optuna
 
+
Иерархическая кластеризация, подходы к графовой кластеризации
+
 
||  ||  
 
||  ||  
 
|-
 
|-
| style="background:#eaecf0;" | '''13''', [[ Запись]] ||
+
| style="background:#eaecf0;" | '''13''', [[ Запись]]  
''Рекомендательные системы и ранжирование:''
+
|rowspan="2"| ''Рекомендательные системы и ранжирование''
 
+
|| Ранжирование, метрики качества ранжирования (попарные, поточечные, списковые), основные подходы к построению рекомендаций
Ранжирование, метрики качества ранжирования (попарные, поточечные, списковые), основные подходы к построению рекомендаций
+
 
||  ||  
 
||  ||  
 
|-
 
|-
 
| style="background:#eaecf0;" | '''14''', [[ Запись]] ||   
 
| style="background:#eaecf0;" | '''14''', [[ Запись]] ||   
''Рекомендательные системы и ранжирование - 2:''
 
 
 
Бустинги и факторизационные машины для рекомендаций
 
Бустинги и факторизационные машины для рекомендаций
 
||  ||  
 
||  ||  
 
|-
 
|-
| style="background:#eaecf0;" | '''15''', [[ Запись]]  ||  
+
| style="background:#eaecf0;" | '''15''', [[ Запись]]   
''Детекция аномалий и дисбаланс классов''
+
|| ''Детекция аномалий и дисбаланс классов''
 +
|| ...
 
||  ||  
 
||  ||  
 
|-
 
|-
| style="background:#eaecf0;" | '''16''', [[ Запись]] ||
+
| style="background:#eaecf0;" | '''16''', [[ Запись]]
''Прогнозирование временных рядов:''
+
|| ''Прогнозирование временных рядов''
 
+
|| Особенности работы со временными рядами (сэмплинг), характеристики временных рядов (стационарность, сезонность, автокорреляция), библиотеки для прогнозирования TS (prophet)
Особенности работы со временными рядами (сэмплинг), характеристики временных рядов (стационарность, сезонность, автокорреляция), библиотеки для прогнозирования TS (prophet)
+
 
|| ||
 
|| ||
 
|-
 
|-

Версия 05:40, 21 октября 2023

О курсе

На курсе студенты узнают о классических и современных алгоритмах машинного обучения, научатся подходам для обработки и анализа данных. В курсе большое внимание уделяется линейным и нелинейным моделям регрессии и классификации. Часть курса посвящена обучению без учителя, в частности, методам снижения размерности и кластеризации. В курсе также изучаются такие популярные приложения методов машинного обучения как ранжирование, рекомендательные системы, поиск аномалий и временные ряды.

Занятия проводятся в Zoom по ... в ...

Контакты

Чат курса в TG: https://t.me/+Qvc86ptxVu42OWYy

Преподаватели: Рысьмятова Анастасия, Цвигун Аким

План занятий: Кантонистова Елена Олеговна

Ассистенты

Ассистент Telegram
Юркин Андрей @andreyyur1107
Москаленко Александр @tau_ceti_pn
Вересников Артём @x7mlpvb
Шанарова Надежда @kronesine
@bwdare
Бузилов Григорий @GBuzilov

Материалы курса

Плейлист курса на YouTube: https://www.youtube.com/playlist?list=PLmA-1xX7IuzCglOyTkTZ_bBHKd8eUr8pC

GitHub с материалами курса: GitHub repository

Занятие Блок Тема Дата Ссылки
1, Запись Линейная регрессия Материалы Нормализация данных, feature engineering, метрики качества регрессии. Методы оценивания обобщающей способности моделей, кросс-валидация
2, Запись

Продолжение

3, Запись Линейная классификация Логистическая регрессия, калибровка вероятностей. kNN (метрический метод)
4, Запись

SVM, SVM-kernels. Метрики качества классификации. Счётчики.

5, Запись Снижение размерности данных Методы отбора признаков, расширения SVD, MDS, t-SNE
6, Запись Решающие деревья и их композиции Алгоритм построения дерева, критерии информативности (регрессия и классификация), обработка пропусков для деревьев, стрижка и регуляризация
7, Запись

Разложение ошибки на шум, смещение и разброс; бэггинг; случайный лес

8, Запись

Бустинг, градиентный бустинг над решающими деревьями, различные интерпретации GB; прочие подходы к ансамблированию

9, Запись Быстрый поиск ближайших соседей LSH
10, Запись Интерпретируемость ML-моделей SHAP-values, LIME
11, Запись Кластеризация K-means, (H)DBSCAN, метрики качества (внутренние и внешние)
12, Запись

Иерархическая кластеризация, подходы к графовой кластеризации. Optuna

13, Запись Рекомендательные системы и ранжирование Ранжирование, метрики качества ранжирования (попарные, поточечные, списковые), основные подходы к построению рекомендаций
14, Запись

Бустинги и факторизационные машины для рекомендаций

15, Запись Детекция аномалий и дисбаланс классов ...
16, Запись Прогнозирование временных рядов Особенности работы со временными рядами (сэмплинг), характеристики временных рядов (стационарность, сезонность, автокорреляция), библиотеки для прогнозирования TS (prophet)

Записи консультаций

Формула оценивания

Оценка = 0 * ОТренировочные тесты + 0.1 * ОStepik + 0.1 * ОКонтрольная + 0.2 * ОЭкзамен + 0.6 * ОДЗ (1)

Автоматы: Если накопленная до экзамена оценка (до округления) больше или равна 7, то она (после округления) по желанию студента ставится в качестве итоговой оценки. Для получения автомата также необходимо получить за контрольную не менее 6 баллов (неокругленных).

Под накопленной оценкой до экзамена понимаем Накоп_до_экзамена = Оценка / 0.8

В случае если накопленная до экзамена оценка (опять же, до округления) < 7 и/или студент получил за коллоквиум во 2-м модуле < 6 баллов, то автомат за экзамен не предусмотрен. Итоговая оценка тогда считается по формуле (1), округляется и ставится в зачетку.

Тренировочные тесты

  1. Линейные модели
  2. Feature Engineering, снижение размерности
  3. Решающие деревья
  4. Композиции
  5. Быстрый kNN, интерпретация моделей
  6. Кластеризация
  7. RecSys

Домашние задания

Инвайт в Anytask:

  1. Линейная регрессия
  2. Линейная классификация
  3. Решающие деревья. Ансамбли над решающими деревьями
  4. Кластеризация

Контрольная

Информация появится позднее

Экзамен

Информация появится позднее

Литература

  • Hastie T., Tibshirani R, Friedman J. The Elements of Statistical Learning (2nd edition). Springer, 2009
  • Bishop C. M. Pattern Recognition and Machine Learning. Springer, 2006.
  • Willi Richert, Luis Pedro Coelho. Building Machine Learning Systems with Python. Packt Publishing, 2013.
  • Учебник по Машинному обучению: https://academy.yandex.ru/handbook/ml