МОВС Ключевой семинар Машинное обучение, ML (2023-24 уч. год, 2-3 модули) — различия между версиями
(create page) |
(UPD format) |
||
Строка 38: | Строка 38: | ||
{| class="wikitable" | {| class="wikitable" | ||
|- | |- | ||
− | ! Занятие !! Тема !! Дата !! Ссылки | + | ! Занятие !! Блок !! Тема !! Дата !! Ссылки |
|- | |- | ||
− | | style="background:#eaecf0;" | '''1''', [[ Запись]] || | + | | style="background:#eaecf0;" | '''1''', [[ Запись]] |
− | [[ Материалы]] | + | |rowspan="2"| ''Линейная регрессия'' |
− | + | || [[ Материалы]] Нормализация данных, feature engineering, метрики качества регрессии. Методы оценивания обобщающей способности моделей, кросс-валидация | |
− | Нормализация данных, feature engineering, метрики качества регрессии. Методы оценивания обобщающей способности моделей, кросс-валидация | + | |
|| || | || || | ||
|- | |- | ||
| style="background:#eaecf0;" | '''2''', [[ Запись]] || | | style="background:#eaecf0;" | '''2''', [[ Запись]] || | ||
− | + | Продолжение | |
|| || | || || | ||
|- | |- | ||
− | | style="background:#eaecf0;" | '''3''', [[ Запись]] || | + | | style="background:#eaecf0;" | '''3''', [[ Запись]] |
− | '' | + | |rowspan="2"| ''Линейная классификация'' |
− | + | || Логистическая регрессия, калибровка вероятностей. kNN (метрический метод) | |
− | Логистическая регрессия, калибровка вероятностей. kNN | + | |
|| || | || || | ||
|- | |- | ||
| style="background:#eaecf0;" | '''4''', [[ Запись]] || | | style="background:#eaecf0;" | '''4''', [[ Запись]] || | ||
− | |||
− | |||
SVM, SVM-kernels. Метрики качества классификации. Счётчики. | SVM, SVM-kernels. Метрики качества классификации. Счётчики. | ||
|| || | || || | ||
|- | |- | ||
− | | style="background:#eaecf0;" | '''5''', [[ Запись]] || | + | | style="background:#eaecf0;" | '''5''', [[ Запись]] |
− | ''Снижение размерности данных | + | || ''Снижение размерности данных'' |
− | + | || Методы отбора признаков, расширения SVD, MDS, t-SNE | |
− | Методы отбора признаков, расширения SVD, MDS, t-SNE | + | |
|| || | || || | ||
|- | |- | ||
− | | style="background:#eaecf0;" | '''6''', [[ Запись]] || | + | | style="background:#eaecf0;" | '''6''', [[ Запись]] |
− | ''Решающие деревья и их композиции | + | |rowspan="3"| ''Решающие деревья и их композиции'' |
− | + | || Алгоритм построения дерева, критерии информативности (регрессия и классификация), обработка пропусков для деревьев, стрижка и регуляризация | |
− | Алгоритм построения дерева, критерии информативности (регрессия и классификация), обработка пропусков для деревьев, стрижка и регуляризация | + | |
|| || | || || | ||
|- | |- | ||
| style="background:#eaecf0;" | '''7''', [[ Запись]] || | | style="background:#eaecf0;" | '''7''', [[ Запись]] || | ||
− | |||
− | |||
Разложение ошибки на шум, смещение и разброс; бэггинг; случайный лес | Разложение ошибки на шум, смещение и разброс; бэггинг; случайный лес | ||
|| || | || || | ||
|- | |- | ||
| style="background:#eaecf0;" | '''8''', [[ Запись]] || | | style="background:#eaecf0;" | '''8''', [[ Запись]] || | ||
− | |||
− | |||
Бустинг, градиентный бустинг над решающими деревьями, различные интерпретации GB; прочие подходы к ансамблированию | Бустинг, градиентный бустинг над решающими деревьями, различные интерпретации GB; прочие подходы к ансамблированию | ||
|| || | || || | ||
Строка 88: | Строка 78: | ||
| Конец первого модуля курса | | | Конец первого модуля курса | | ||
|- | |- | ||
− | | style="background:#eaecf0;" | '''9''', [[ Запись]] || | + | | style="background:#eaecf0;" | '''9''', [[ Запись]] |
− | Быстрый поиск ближайших соседей | + | || ''Быстрый поиск ближайших соседей'' |
+ | || LSH | ||
|| || | || || | ||
|- | |- | ||
− | | style="background:#eaecf0;" | '''10''', [[ Запись]] || | + | | style="background:#eaecf0;" | '''10''', [[ Запись]] |
− | ''Интерпретируемость ML-моделей | + | || ''Интерпретируемость ML-моделей'' |
− | + | || SHAP-values, LIME | |
− | SHAP-values, LIME | + | |
|| || | || || | ||
|- | |- | ||
− | | style="background:#eaecf0;" | '''11''', [[ Запись]] || | + | | style="background:#eaecf0;" | '''11''', [[ Запись]] |
− | ''Кластеризация | + | |rowspan="2"| ''Кластеризация'' |
− | + | || K-means, (H)DBSCAN, метрики качества (внутренние и внешние) | |
− | K-means, (H)DBSCAN, метрики качества (внутренние и внешние) | + | |
|| || | || || | ||
|- | |- | ||
| style="background:#eaecf0;" | '''12''', [[ Запись]] || | | style="background:#eaecf0;" | '''12''', [[ Запись]] || | ||
− | + | Иерархическая кластеризация, подходы к графовой кластеризации. Optuna | |
− | + | ||
− | Иерархическая кластеризация, подходы к графовой кластеризации | + | |
|| || | || || | ||
|- | |- | ||
− | | style="background:#eaecf0;" | '''13''', [[ Запись]] || | + | | style="background:#eaecf0;" | '''13''', [[ Запись]] |
− | ''Рекомендательные системы и ранжирование | + | |rowspan="2"| ''Рекомендательные системы и ранжирование'' |
− | + | || Ранжирование, метрики качества ранжирования (попарные, поточечные, списковые), основные подходы к построению рекомендаций | |
− | Ранжирование, метрики качества ранжирования (попарные, поточечные, списковые), основные подходы к построению рекомендаций | + | |
|| || | || || | ||
|- | |- | ||
| style="background:#eaecf0;" | '''14''', [[ Запись]] || | | style="background:#eaecf0;" | '''14''', [[ Запись]] || | ||
− | |||
− | |||
Бустинги и факторизационные машины для рекомендаций | Бустинги и факторизационные машины для рекомендаций | ||
|| || | || || | ||
|- | |- | ||
− | | style="background:#eaecf0;" | '''15''', [[ Запись]] || | + | | style="background:#eaecf0;" | '''15''', [[ Запись]] |
− | ''Детекция аномалий и дисбаланс классов'' | + | || ''Детекция аномалий и дисбаланс классов'' |
+ | || ... | ||
|| || | || || | ||
|- | |- | ||
− | | style="background:#eaecf0;" | '''16''', [[ Запись]] || | + | | style="background:#eaecf0;" | '''16''', [[ Запись]] |
− | ''Прогнозирование временных рядов | + | || ''Прогнозирование временных рядов'' |
− | + | || Особенности работы со временными рядами (сэмплинг), характеристики временных рядов (стационарность, сезонность, автокорреляция), библиотеки для прогнозирования TS (prophet) | |
− | Особенности работы со временными рядами (сэмплинг), характеристики временных рядов (стационарность, сезонность, автокорреляция), библиотеки для прогнозирования TS (prophet) | + | |
|| || | || || | ||
|- | |- |
Версия 05:40, 21 октября 2023
Содержание
О курсе
На курсе студенты узнают о классических и современных алгоритмах машинного обучения, научатся подходам для обработки и анализа данных. В курсе большое внимание уделяется линейным и нелинейным моделям регрессии и классификации. Часть курса посвящена обучению без учителя, в частности, методам снижения размерности и кластеризации. В курсе также изучаются такие популярные приложения методов машинного обучения как ранжирование, рекомендательные системы, поиск аномалий и временные ряды.
Занятия проводятся в Zoom по ... в ...
Контакты
Чат курса в TG: https://t.me/+Qvc86ptxVu42OWYy
Преподаватели: Рысьмятова Анастасия, Цвигун Аким
План занятий: Кантонистова Елена Олеговна
Ассистенты
Ассистент | Telegram |
---|---|
Юркин Андрей | @andreyyur1107 |
Москаленко Александр | @tau_ceti_pn |
Вересников Артём | @x7mlpvb |
Шанарова Надежда | @kronesine |
@bwdare | |
Бузилов Григорий | @GBuzilov |
Материалы курса
Плейлист курса на YouTube: https://www.youtube.com/playlist?list=PLmA-1xX7IuzCglOyTkTZ_bBHKd8eUr8pC
GitHub с материалами курса: GitHub repository
Занятие | Блок | Тема | Дата | Ссылки |
---|---|---|---|---|
1, Запись | Линейная регрессия | Материалы Нормализация данных, feature engineering, метрики качества регрессии. Методы оценивания обобщающей способности моделей, кросс-валидация | ||
2, Запись |
Продолжение |
|||
3, Запись | Линейная классификация | Логистическая регрессия, калибровка вероятностей. kNN (метрический метод) | ||
4, Запись |
SVM, SVM-kernels. Метрики качества классификации. Счётчики. |
|||
5, Запись | Снижение размерности данных | Методы отбора признаков, расширения SVD, MDS, t-SNE | ||
6, Запись | Решающие деревья и их композиции | Алгоритм построения дерева, критерии информативности (регрессия и классификация), обработка пропусков для деревьев, стрижка и регуляризация | ||
7, Запись |
Разложение ошибки на шум, смещение и разброс; бэггинг; случайный лес |
|||
8, Запись |
Бустинг, градиентный бустинг над решающими деревьями, различные интерпретации GB; прочие подходы к ансамблированию |
|||
9, Запись | Быстрый поиск ближайших соседей | LSH | ||
10, Запись | Интерпретируемость ML-моделей | SHAP-values, LIME | ||
11, Запись | Кластеризация | K-means, (H)DBSCAN, метрики качества (внутренние и внешние) | ||
12, Запись |
Иерархическая кластеризация, подходы к графовой кластеризации. Optuna |
|||
13, Запись | Рекомендательные системы и ранжирование | Ранжирование, метрики качества ранжирования (попарные, поточечные, списковые), основные подходы к построению рекомендаций | ||
14, Запись |
Бустинги и факторизационные машины для рекомендаций |
|||
15, Запись | Детекция аномалий и дисбаланс классов | ... | ||
16, Запись | Прогнозирование временных рядов | Особенности работы со временными рядами (сэмплинг), характеристики временных рядов (стационарность, сезонность, автокорреляция), библиотеки для прогнозирования TS (prophet) |
Записи консультаций
Формула оценивания
Оценка = 0 * ОТренировочные тесты + 0.1 * ОStepik + 0.1 * ОКонтрольная + 0.2 * ОЭкзамен + 0.6 * ОДЗ (1)
Автоматы: Если накопленная до экзамена оценка (до округления) больше или равна 7, то она (после округления) по желанию студента ставится в качестве итоговой оценки. Для получения автомата также необходимо получить за контрольную не менее 6 баллов (неокругленных).
Под накопленной оценкой до экзамена понимаем Накоп_до_экзамена = Оценка / 0.8
В случае если накопленная до экзамена оценка (опять же, до округления) < 7 и/или студент получил за коллоквиум во 2-м модуле < 6 баллов, то автомат за экзамен не предусмотрен. Итоговая оценка тогда считается по формуле (1), округляется и ставится в зачетку.
Тренировочные тесты
- Линейные модели
- Feature Engineering, снижение размерности
- Решающие деревья
- Композиции
- Быстрый kNN, интерпретация моделей
- Кластеризация
- RecSys
Домашние задания
Инвайт в Anytask:
- Линейная регрессия
- Линейная классификация
- Решающие деревья. Ансамбли над решающими деревьями
- Кластеризация
Контрольная
Информация появится позднее
Экзамен
Информация появится позднее
Литература
- Hastie T., Tibshirani R, Friedman J. The Elements of Statistical Learning (2nd edition). Springer, 2009
- Bishop C. M. Pattern Recognition and Machine Learning. Springer, 2006.
- Willi Richert, Luis Pedro Coelho. Building Machine Learning Systems with Python. Packt Publishing, 2013.
- Учебник по Машинному обучению: https://academy.yandex.ru/handbook/ml