МОВС Машинное обучение 2022-23 — различия между версиями

Материал из Wiki - Факультет компьютерных наук
Перейти к: навигация, поиск
м (edit formula)
м (add hw4 deadline (postfactum), exam announce)
Строка 146: Строка 146:
 
''Рекомендательные системы и ранжирование:''
 
''Рекомендательные системы и ранжирование:''
  
Ранжирование, метрики качества ранжирования (попарные, поточечные, списковые)
+
Ранжирование, метрики качества ранжирования (попарные, поточечные, списковые), основные подходы к построению рекомендаций
 
|| 24.02.23  || ||  
 
|| 24.02.23  || ||  
 
|-
 
|-
| style="background:#eaecf0;" | '''14''', [[ Запись]] ||   
+
| style="background:#eaecf0;" | '''14''', [[https://www.youtube.com/watch?v=p4JYVxHOO0w&list=PLmA-1xX7IuzDYv6ZLvAbW7oJPh2kRbm50 Запись]] ||   
 
''Рекомендательные системы и ранжирование - 2:''
 
''Рекомендательные системы и ранжирование - 2:''
  
Переход от ранжирования к рекомендациям, метрики качества рекомендаций. Коллаборативная фильтрация, матричные разложения и факторизационные машины
+
Бустинги и факторизационные машины для рекомендаций
|| || ||  
+
|| 03.03.23 || [https://github.com/esokolov/ml-course-hse/blob/master/2020-spring/lecture-notes/lecture23-recommender.pdf Конспект 1], [https://github.com/esokolov/ml-course-hse/blob/master/2020-spring/lecture-notes/lecture24-recommender.pdf Конспект 2], [https://towardsdatascience.com/factorization-machines-for-item-recommendation-with-implicit-feedback-data-5655a7c749db Статья про FM] (eng) || [https://habr.com/ru/company/econtenta/blog/303458/ Статья про метрики качества ранжирования]
 
|-
 
|-
| style="background:#eaecf0;" | '''-''', [[ Запись]]  ||  
+
| style="background:#eaecf0;" | '''15''', [[ Запись]]  ||  
''AutoML:''
+
''Детекция аномалий и дисбаланс классов''
 
+
|| 10.03.23 || [https://alexanderdyakonov.wordpress.com/2021/05/27/imbalance/ Статья Дьяконова] про дисбаланс классов, [https://github.com/esokolov/ml-course-hse/blob/master/2019-spring/lecture-notes/lecture16-anomaly.pdf Конспект] про детекцию аномалий ||  
Подбор гиперпараметров (optunа), фреймворки (H2O, TPOT, auto-sklearn и MLBox)
+
|| || ||  
+
 
|-
 
|-
| style="background:#eaecf0;" | '''-''', [[ Запись]] ||
+
| style="background:#eaecf0;" | '''16''', [[ Запись]] ||
 
''Прогнозирование временных рядов:''
 
''Прогнозирование временных рядов:''
  
 
Особенности работы со временными рядами (сэмплинг), характеристики временных рядов (стационарность, сезонность, автокорреляция), библиотеки для прогнозирования TS (prophet)
 
Особенности работы со временными рядами (сэмплинг), характеристики временных рядов (стационарность, сезонность, автокорреляция), библиотеки для прогнозирования TS (prophet)
|| || ||
+
|| 17.03.23 || ||  
|-
+
|-
+
| style="background:#eaecf0;" | '''-''', [[ Запись]] ||  ||  || ||
+
|-
+
| style="background:#eaecf0;" | '''-''', [[ Запись]] ||  ||  || ||  
+
 
|-
 
|-
 
|}
 
|}
Строка 180: Строка 173:
  
 
==Формула оценивания==
 
==Формула оценивания==
Оценка = 0 * О<sub>Тренировочные тесты</sub> + 0.1 * О<sub>Промежуточные тесты</sub> + 0.1 * О<sub>Коллоквиум</sub> + 0.2 * О<sub>Экзамен</sub> + 0.6 * О<sub>ДЗ</sub>
+
Оценка = 0 * О<sub>Тренировочные тесты</sub> + 0.1 * О<sub>Промежуточные тесты</sub> + 0.1 * О<sub>Коллоквиум</sub> + 0.2 * О<sub>Экзамен</sub> + 0.6 * О<sub>ДЗ</sub> ('''1''')
 +
 
 +
'''Автоматы:''' Если накопленная до экзамена оценка (до округления) больше или равна 8, то она (после округления) по желанию студента ставится в качестве итоговой оценки. Для получения автомата '''также необходимо получить за коллоквиум не менее 6 баллов''' (неокругленных).
  
'''Автоматы:''' Если накопленная оценка больше или равна 8, то она по желанию студента ставится в качестве итоговой оценки. Для получения автомата также необходимо получить за коллоквиум не менее 6 баллов.
+
Под накопленной оценкой до экзамена понимаем ''Накоп_до_экзамена = Оценка / 0.8''
  
P.S. Под накопленной оценкой до экзамена понимаем ''Накоп_до_экза = Оценка / 0.8''
+
В случае если накопленная до экзамена оценка (опять же, до округления) < 8 и/или студент получил за коллоквиум во 2-м модуле < 6 баллов, то автомат за экзамен не предусмотрен. Итоговая оценка тогда считается по формуле ('''1'''), округляется и ставится в зачетку.
  
 
== Домашние задания ==
 
== Домашние задания ==
Строка 192: Строка 187:
 
# First Step in NLP Bootcamp: [[https://www.kaggle.com/t/eb20383504ce4d85ba27c5b12e7767ec Соревнование]] [[https://stepik.org/course/129443/promo Материалы буткемпа]] | '''Дедлайн - 11.12.22 17:00 МСК'''
 
# First Step in NLP Bootcamp: [[https://www.kaggle.com/t/eb20383504ce4d85ba27c5b12e7767ec Соревнование]] [[https://stepik.org/course/129443/promo Материалы буткемпа]] | '''Дедлайн - 11.12.22 17:00 МСК'''
 
# Сравнение деревянных моделей + SQL: [[https://colab.research.google.com/drive/154fRR9jE_PMV9dfHaKeLVhrMvaZgCc9I?usp=sharing Ноутбук]] | '''Мягкий дедлайн - 11.02.23 23:59 МСК'''
 
# Сравнение деревянных моделей + SQL: [[https://colab.research.google.com/drive/154fRR9jE_PMV9dfHaKeLVhrMvaZgCc9I?usp=sharing Ноутбук]] | '''Мягкий дедлайн - 11.02.23 23:59 МСК'''
# Кластеризация
+
# Кластеризация: [[https://github.com/Murcha1990/MLDS_ML_2022/tree/main/Hometasks/HT4 Ноутбук]] | '''Мягкий дедлайн - 05.03.23 23:59 МСК'''
 
# RecSys
 
# RecSys
# (Бонус) Большая практическая работа // Самостоятельная реализация алгоритмов МО
 
  
 
== Коллоквиум ==
 
== Коллоквиум ==
Строка 208: Строка 202:
  
 
== Экзамен ==
 
== Экзамен ==
 +
Экзамен по настоящему курсу пройдет ориентировочно 30 мая в формате собеседования. На каждого студента положено не больше 20 мин. Будет задано по меньшей мере два вопроса на понимание теории и одна задача
  
 
== Литература ==
 
== Литература ==

Версия 16:39, 9 марта 2023

О курсе

Занятия проводятся в Zoom по пятницам в 18:00

Контакты

Канал курса в TG: [channel link]

Чат курса в TG: [chat link]

Преподаватели: Кантонистова Елена Олеговна, Максимовская Анастасия Максимовна

Ассистенты Контакты
Савелий @Savely_Prokhorov
Марк Блуменау @markblumenau
Валерия Кондратьева @pulgatoryrealm
Егор @Nogaromo

Материалы курса

Ссылка на плейлист курса на YouTube: YouTube-playlist

Ссылка на GitHub с материалами курса: [GitHub repository]

В плане курса (ниже) возможны изменения: как количественные (число занятий), так и качественные (их содержание).

Занятие Тема Дата Материалы для самоподготовки к семинарам Дополнительные материалы
1, [Запись]

[Материалы] Линейные методы регрессии:

Нормализация данных, feature engineering, метрики качества регрессии. Методы оценивания обобщающей способности моделей, кросс-валидация

11.11.22

Вводная в ML лекция и презентация к ней

Урок "Введение в МО. Схема проекта по МО" на Stepik

2, [Гр. 1 - Елена, Гр.2 - Настя]

Линейная регрессия. Продолжение

19.11.22
3, [Запись]

Линейные методы классификации - 1:

Логистическая регрессия, калибровка вероятностей. kNN

25.11.22

Лекция про классификацию; ноутбук для самопроверки

Stepik: кросс-валидация, параметры и гиперпараметры, связь ML-метрик с бизнесом

4, [Запись]

Линейные методы классификации - 2:

SVM, SVM-kernels. Метрики качества классификации. Счётчики.

02.12.22

Лекция про SVM и метрики классификации

Неоцениваемый тест

Ноутбук с семинара
5, [Запись]

Снижение размерности данных:

Методы отбора признаков, расширения SVD, MDS, t-SNE

07.12.22

Лекция

6, [Гр.1 (Елена), Гр.2 (Настя)]

Решающие деревья и их композиции:

Алгоритм построения дерева, критерии информативности (регрессия и классификация), обработка пропусков для деревьев, стрижка и регуляризация

09.12.22

Лекция (с 25-й минуты), Конспект Евгения Соколова

Неоцениваемый тест по деревьям и AUC-ROC

7, [Запись]

Решающие деревья и их композиции - 2:

Разложение ошибки на шум, смещение и разброс; бэггинг; случайный лес

16.12.22

Параграф "Разложение ошибки на смещение и разброс"

Уроки 6.4, 6.5 на Stepik

Лекция про разложение ошибки и случайный лес, Конспект к ней

8, [Запись]

Решающие деревья и их композиции - 3:

Бустинг, градиентный бустинг над решающими деревьями, различные интерпретации GB; прочие подходы к ансамблированию

19.12.22

Лекция, Конспект про градиентный бустинг, Текст про его модификации

9, [Запись]

Быстрый поиск ближайших соседей, LSH

20.01.23 Модуль на Stepik и домашка по KNN + LSH Статья по LSH на Medium
10, [Запись]

Интерпретируемость ML-моделей:

SHAP-values, LIME

27.01.23 Статья про SHAP, Статья про Lime (SHAP там тоже есть)
11, [Запись]

Кластеризация:

K-means, (H)DBSCAN, метрики качества (внутренние и внешние)

03.02.23

Лекция, Слайды к ней,

Конспект Евгения Соколова,

Статья про DBSCAN, Статья про HDBSCAN

Доп, [Запись]

Татьяна Гайнцева "Отличия industrial от research ML"

10.02.23
12, [Запись]

Кластеризация - 2, Optuna

Иерархическая кластеризация, подходы к графовой кластеризации

17.02.23 Лекция Е. Соколова по графовой кластеризации, Текст (Eng) про спектральную кластеризацию
13, [Запись]

Рекомендательные системы и ранжирование:

Ранжирование, метрики качества ранжирования (попарные, поточечные, списковые), основные подходы к построению рекомендаций

24.02.23
14, [Запись]

Рекомендательные системы и ранжирование - 2:

Бустинги и факторизационные машины для рекомендаций

03.03.23 Конспект 1, Конспект 2, Статья про FM (eng) Статья про метрики качества ранжирования
15, Запись

Детекция аномалий и дисбаланс классов

10.03.23 Статья Дьяконова про дисбаланс классов, Конспект про детекцию аномалий
16, Запись

Прогнозирование временных рядов:

Особенности работы со временными рядами (сэмплинг), характеристики временных рядов (стационарность, сезонность, автокорреляция), библиотеки для прогнозирования TS (prophet)

17.03.23

Записи консультаций

1. Консультация к соревнованию First Step in NLP Bootcamp (05.12.22) [Notion-страница с советами]

2. Консультация к коллоквиуму (27.12.22)

Формула оценивания

Оценка = 0 * ОТренировочные тесты + 0.1 * ОПромежуточные тесты + 0.1 * ОКоллоквиум + 0.2 * ОЭкзамен + 0.6 * ОДЗ (1)

Автоматы: Если накопленная до экзамена оценка (до округления) больше или равна 8, то она (после округления) по желанию студента ставится в качестве итоговой оценки. Для получения автомата также необходимо получить за коллоквиум не менее 6 баллов (неокругленных).

Под накопленной оценкой до экзамена понимаем Накоп_до_экзамена = Оценка / 0.8

В случае если накопленная до экзамена оценка (опять же, до округления) < 8 и/или студент получил за коллоквиум во 2-м модуле < 6 баллов, то автомат за экзамен не предусмотрен. Итоговая оценка тогда считается по формуле (1), округляется и ставится в зачетку.

Домашние задания

Инвайт в Anytask: T18GYvZ

  1. LinReg + inference: [Тетрадка] [Видео] | Дедлайн - 04.12.22 23:59 МСК
  2. First Step in NLP Bootcamp: [Соревнование] [Материалы буткемпа] | Дедлайн - 11.12.22 17:00 МСК
  3. Сравнение деревянных моделей + SQL: [Ноутбук] | Мягкий дедлайн - 11.02.23 23:59 МСК
  4. Кластеризация: [Ноутбук] | Мягкий дедлайн - 05.03.23 23:59 МСК
  5. RecSys

Коллоквиум

Демо-вариант, Темы для подготовки

Коллоквиум проёдетпрошёл 28.12.22 в 19:30

Материалы: GitHub этого курса, GitHub первого модуля МАДа, Stepik, Лекции Евгения Соколова

Ссылка на варианты коллоквиума на платформе

Правила: 80 мин, 2 варианта, пользоваться можно всем (кроме мессенджеров и людей), подключиться нужно со включенной камерой, при зафиксированном факте списывания оценка за коллок обнуляется всем, кто к этому списыванию был непосредственно причастен

Экзамен

Экзамен по настоящему курсу пройдет ориентировочно 30 мая в формате собеседования. На каждого студента положено не больше 20 мин. Будет задано по меньшей мере два вопроса на понимание теории и одна задача

Литература

  • Hastie T., Tibshirani R, Friedman J. The Elements of Statistical Learning (2nd edition). Springer, 2009
  • Bishop C. M. Pattern Recognition and Machine Learning. Springer, 2006.
  • Willi Richert, Luis Pedro Coelho. Building Machine Learning Systems with Python. Packt Publishing, 2013.