МОВС Ключевой семинар Машинное обучение, ML (2023-24 уч. год, 2-3 модули) — различия между версиями

Материал из Wiki - Факультет компьютерных наук
Перейти к: навигация, поиск
м (formatting edit)
м (UPD formula, add 5th hw)
Строка 121: Строка 121:
  
 
==Формула оценивания==
 
==Формула оценивания==
Оценка = 0 * О<sub>Тренировочные тесты</sub> + 0.1 * О<sub>Stepik</sub> + 0.1 * О<sub>Контрольная</sub> + 0.2 * О<sub>Экзамен</sub> + 0.6 * О<sub>ДЗ</sub> ('''1''')
+
Оценка = 0 * О<sub>Тренировочные тесты</sub> + 0.2 * О<sub>Stepik</sub> + 0.1 * О<sub>Контрольная</sub> + 0.2 * О<sub>Экзамен</sub> + 0.5 * О<sub>ДЗ</sub> ('''1''')
  
 
'''Автоматы:''' Если накопленная до экзамена оценка (до округления) больше или равна 7, то она (после округления) по желанию студента ставится в качестве итоговой оценки. Для получения автомата '''также необходимо получить за контрольную не менее 6 баллов''' (неокругленных).
 
'''Автоматы:''' Если накопленная до экзамена оценка (до округления) больше или равна 7, то она (после округления) по желанию студента ставится в качестве итоговой оценки. Для получения автомата '''также необходимо получить за контрольную не менее 6 баллов''' (неокругленных).
Строка 145: Строка 145:
 
# Решающие деревья. Ансамбли над решающими деревьями
 
# Решающие деревья. Ансамбли над решающими деревьями
 
# Кластеризация
 
# Кластеризация
 +
# ''Аномалии, RecSys''
  
 
== Контрольная ==
 
== Контрольная ==

Версия 12:14, 30 октября 2023

О курсе

На курсе студенты узнают о классических и современных алгоритмах машинного обучения, научатся подходам для обработки и анализа данных. В курсе большое внимание уделяется линейным и нелинейным моделям регрессии и классификации. Часть курса посвящена обучению без учителя, в частности, методам снижения размерности и кластеризации. В курсе также изучаются такие популярные приложения методов машинного обучения как ранжирование, рекомендательные системы, поиск аномалий и временные ряды.

Занятия проводятся в Zoom по ... в ...

Контакты

Чат курса в TG: https://t.me/+Qvc86ptxVu42OWYy

Преподаватели: Рысьмятова Анастасия, Цвигун Аким

План занятий: Кантонистова Елена Олеговна

Ассистенты

Ассистент Telegram
Юркин Андрей @andreyyur1107
Москаленко Александр @tau_ceti_pn
Вересников Артём @x7mlpvb
Шанарова Надежда @kronesine
@bwdare
Бузилов Григорий @GBuzilov

Материалы курса

Плейлист курса на YouTube: https://www.youtube.com/playlist?list=PLmA-1xX7IuzCglOyTkTZ_bBHKd8eUr8pC

GitHub с материалами курса: GitHub repository

Занятие Блок Тема Дата Ссылки
1, Запись Линейная регрессия Материалы Нормализация данных, feature engineering, метрики качества регрессии.
Методы оценивания обобщающей способности моделей, кросс-валидация
03.11.23 // 11.11.23
2, Запись

Продолжение

08.11.23 // 11.11.23
3, Запись Линейная классификация Логистическая регрессия, калибровка вероятностей. kNN (метрический метод) 15.11.23 // 18.11.23
4, Запись

SVM, SVM-kernels. Метрики качества классификации. Счётчики.

15.11.23 // 18.11.23
5, Запись Снижение размерности данных Методы отбора признаков, расширения SVD, MDS, t-SNE 22.11.23 // 25.11.23
6, Запись Решающие деревья и их композиции Алгоритм построения дерева, критерии информативности (регрессия и классификация),
обработка пропусков для деревьев, стрижка и регуляризация
29.11.23 // 02.12.23
7, Запись

Разложение ошибки на шум, смещение и разброс; бэггинг; случайный лес

06.12.23 // 09.12.23
8, Запись

Бустинг, градиентный бустинг над решающими деревьями, различные интерпретации GB;
Прочие подходы к ансамблированию

13.12.23 // 16.12.23
9, Запись Быстрый поиск ближайших соседей LSH 20.12.23 // 21.12.23
10, Запись Интерпретируемость ML-моделей SHAP-values, LIME
11, Запись Кластеризация K-means, (H)DBSCAN, метрики качества (внутренние и внешние)
12, Запись

Иерархическая кластеризация, подходы к графовой кластеризации. Optuna

13, Запись Рекомендательные системы и ранжирование Ранжирование, метрики качества ранжирования (попарные, поточечные, списковые).
Основные подходы к построению рекомендаций
14, Запись

Бустинги и факторизационные машины для рекомендаций

15, Запись Детекция аномалий и дисбаланс классов ...
16, Запись Прогнозирование временных рядов Особенности работы со временными рядами (сэмплинг),
характеристики временных рядов (стационарность, сезонность, автокорреляция),
библиотеки для прогнозирования TS (prophet)

Записи консультаций

Формула оценивания

Оценка = 0 * ОТренировочные тесты + 0.2 * ОStepik + 0.1 * ОКонтрольная + 0.2 * ОЭкзамен + 0.5 * ОДЗ (1)

Автоматы: Если накопленная до экзамена оценка (до округления) больше или равна 7, то она (после округления) по желанию студента ставится в качестве итоговой оценки. Для получения автомата также необходимо получить за контрольную не менее 6 баллов (неокругленных).

Под накопленной оценкой до экзамена понимаем Накоп_до_экзамена = Оценка / 0.8

В случае если накопленная до экзамена оценка (опять же, до округления) < 7 и/или студент получил за коллоквиум во 2-м модуле < 6 баллов, то автомат за экзамен не предусмотрен. Итоговая оценка тогда считается по формуле (1), округляется и ставится в зачетку.

Тренировочные тесты

  1. Линейные модели
  2. Feature Engineering, снижение размерности
  3. Решающие деревья
  4. Композиции
  5. Быстрый kNN, интерпретация моделей
  6. Кластеризация
  7. RecSys

Домашние задания

Инвайт в Anytask:

  1. Линейная регрессия
  2. Линейная классификация
  3. Решающие деревья. Ансамбли над решающими деревьями
  4. Кластеризация
  5. Аномалии, RecSys

Контрольная

Информация появится позднее

Экзамен

Информация появится позднее

Литература

  • Hastie T., Tibshirani R, Friedman J. The Elements of Statistical Learning (2nd edition). Springer, 2009
  • Bishop C. M. Pattern Recognition and Machine Learning. Springer, 2006.
  • Willi Richert, Luis Pedro Coelho. Building Machine Learning Systems with Python. Packt Publishing, 2013.
  • Учебник по Машинному обучению: https://academy.yandex.ru/handbook/ml