МОВС Машинное обучение 2022-23 — различия между версиями

Материал из Wiki - Факультет компьютерных наук
Перейти к: навигация, поиск
(add hw3, seminars 9-11)
м (lectures 11-13)
Строка 133: Строка 133:
 
||  
 
||  
 
|-
 
|-
| style="background:#eaecf0;" | '''Доп''', [[ Запись]] ||   
+
| style="background:#eaecf0;" | '''Доп''', [[https://www.youtube.com/watch?v=fnBPnc6Mfb4&list=PLmA-1xX7IuzDYv6ZLvAbW7oJPh2kRbm50 Запись]] ||   
 
Татьяна Гайнцева "Отличия industrial от research ML"
 
Татьяна Гайнцева "Отличия industrial от research ML"
 
|| 10.02.23 || ||  
 
|| 10.02.23 || ||  
 
|-
 
|-
| style="background:#eaecf0;" | '''12''', [[ Запись]] ||   
+
| style="background:#eaecf0;" | '''12''', [[https://www.youtube.com/watch?v=aJXArPWUQ6w&list=PLmA-1xX7IuzDYv6ZLvAbW7oJPh2kRbm50 Запись]] ||   
''Кластеризация - 2:''
+
''Кластеризация - 2, Optuna''
  
 
Иерархическая кластеризация, подходы к графовой кластеризации
 
Иерархическая кластеризация, подходы к графовой кластеризации
|| 17.02.23 || ||  
+
|| 17.02.23 || [https://github.com/esokolov/ml-course-hse/blob/master/2020-spring/lecture-notes/lecture17-clusterization.pdf Лекция] Е. Соколова по графовой кластеризации, [https://towardsdatascience.com/spectral-clustering-aba2640c0d5b Текст (Eng)] про спектральную кластеризацию ||  
 
|-
 
|-
| style="background:#eaecf0;" | '''13''', [[ Запись]] ||   
+
| style="background:#eaecf0;" | '''13''', [[https://www.youtube.com/watch?v=dEKT3bDJAH0&list=PLmA-1xX7IuzDYv6ZLvAbW7oJPh2kRbm50 Запись]] ||   
 
''Рекомендательные системы и ранжирование:''
 
''Рекомендательные системы и ранжирование:''
  
 
Ранжирование, метрики качества ранжирования (попарные, поточечные, списковые)
 
Ранжирование, метрики качества ранжирования (попарные, поточечные, списковые)
||  || ||  
+
|| 24.02.23 || ||  
 
|-
 
|-
 
| style="background:#eaecf0;" | '''14''', [[ Запись]] ||   
 
| style="background:#eaecf0;" | '''14''', [[ Запись]] ||   

Версия 23:17, 24 февраля 2023

О курсе

Занятия проводятся в Zoom по пятницам в 18:00

Контакты

Канал курса в TG: [channel link]

Чат курса в TG: [chat link]

Преподаватели: Кантонистова Елена Олеговна, Максимовская Анастасия Максимовна

Ассистенты Контакты
Савелий @Savely_Prokhorov
Марк Блуменау @markblumenau
Валерия Кондратьева @pulgatoryrealm
Егор @Nogaromo

Материалы курса

Ссылка на плейлист курса на YouTube: YouTube-playlist

Ссылка на GitHub с материалами курса: [GitHub repository]

В плане курса (ниже) возможны изменения: как количественные (число занятий), так и качественные (их содержание).

Занятие Тема Дата Материалы для самоподготовки к семинарам Дополнительные материалы
1, [Запись]

[Материалы] Линейные методы регрессии:

Нормализация данных, feature engineering, метрики качества регрессии. Методы оценивания обобщающей способности моделей, кросс-валидация

11.11.22

Вводная в ML лекция и презентация к ней

Урок "Введение в МО. Схема проекта по МО" на Stepik

2, [Гр. 1 - Елена, Гр.2 - Настя]

Линейная регрессия. Продолжение

19.11.22
3, [Запись]

Линейные методы классификации - 1:

Логистическая регрессия, калибровка вероятностей. kNN

25.11.22

Лекция про классификацию; ноутбук для самопроверки

Stepik: кросс-валидация, параметры и гиперпараметры, связь ML-метрик с бизнесом

4, [Запись]

Линейные методы классификации - 2:

SVM, SVM-kernels. Метрики качества классификации. Счётчики.

02.12.22

Лекция про SVM и метрики классификации

Неоцениваемый тест

Ноутбук с семинара
5, [Запись]

Снижение размерности данных:

Методы отбора признаков, расширения SVD, MDS, t-SNE

07.12.22

Лекция

6, [Гр.1 (Елена), Гр.2 (Настя)]

Решающие деревья и их композиции:

Алгоритм построения дерева, критерии информативности (регрессия и классификация), обработка пропусков для деревьев, стрижка и регуляризация

09.12.22

Лекция (с 25-й минуты), Конспект Евгения Соколова

Неоцениваемый тест по деревьям и AUC-ROC

7, [Запись]

Решающие деревья и их композиции - 2:

Разложение ошибки на шум, смещение и разброс; бэггинг; случайный лес

16.12.22

Параграф "Разложение ошибки на смещение и разброс"

Уроки 6.4, 6.5 на Stepik

Лекция про разложение ошибки и случайный лес, Конспект к ней

8, [Запись]

Решающие деревья и их композиции - 3:

Бустинг, градиентный бустинг над решающими деревьями, различные интерпретации GB; прочие подходы к ансамблированию

19.12.22

Лекция, Конспект про градиентный бустинг, Текст про его модификации

9, [Запись]

Быстрый поиск ближайших соседей, LSH

20.01.23 Модуль на Stepik и домашка по KNN + LSH Статья по LSH на Medium
10, [Запись]

Интерпретируемость ML-моделей:

SHAP-values, LIME

27.01.23 Статья про SHAP, Статья про Lime (SHAP там тоже есть)
11, [Запись]

Кластеризация:

K-means, (H)DBSCAN, метрики качества (внутренние и внешние)

03.02.23

Лекция, Слайды к ней,

Конспект Евгения Соколова,

Статья про DBSCAN, Статья про HDBSCAN

Доп, [Запись]

Татьяна Гайнцева "Отличия industrial от research ML"

10.02.23
12, [Запись]

Кластеризация - 2, Optuna

Иерархическая кластеризация, подходы к графовой кластеризации

17.02.23 Лекция Е. Соколова по графовой кластеризации, Текст (Eng) про спектральную кластеризацию
13, [Запись]

Рекомендательные системы и ранжирование:

Ранжирование, метрики качества ранжирования (попарные, поточечные, списковые)

24.02.23
14, Запись

Рекомендательные системы и ранжирование - 2:

Переход от ранжирования к рекомендациям, метрики качества рекомендаций. Коллаборативная фильтрация, матричные разложения и факторизационные машины

-, Запись

AutoML:

Подбор гиперпараметров (optunа), фреймворки (H2O, TPOT, auto-sklearn и MLBox)

-, Запись

Прогнозирование временных рядов:

Особенности работы со временными рядами (сэмплинг), характеристики временных рядов (стационарность, сезонность, автокорреляция), библиотеки для прогнозирования TS (prophet)

-, Запись
-, Запись

Записи консультаций

1. Консультация к соревнованию First Step in NLP Bootcamp (05.12.22) [Notion-страница с советами]

2. Консультация к коллоквиуму (27.12.22)

Формула оценивания

Оценка = 0 * ОТренировочные тесты + 0.075 * ОПромежуточные тесты + 0.075 * О Взаимопроверка + 0.1 * ОКоллоквиум + 0.15 * ОЭкзамен + 0.6 * ОДЗ

Автоматы: Если накопленная оценка больше или равна 8, то она по желанию студента ставится в качестве итоговой оценки. Для получения автомата также необходимо получить за коллоквиум не менее 6 баллов.

P.S. Под накопленной оценкой до экзамена понимаем Накоп_до_экза = Оценка / 0.85

Домашние задания

Инвайт в Anytask: T18GYvZ

  1. LinReg + inference: [Тетрадка] [Видео] | Дедлайн - 04.12.22 23:59 МСК
  2. First Step in NLP Bootcamp: [Соревнование] [Материалы буткемпа] | Дедлайн - 11.12.22 17:00 МСК
  3. Сравнение деревянных моделей + SQL: [Ноутбук] | Мягкий дедлайн - 11.02.23 23:59 МСК
  4. Кластеризация
  5. RecSys
  6. (Бонус) Большая практическая работа // Самостоятельная реализация алгоритмов МО

Коллоквиум

Демо-вариант, Темы для подготовки

Коллоквиум проёдетпрошёл 28.12.22 в 19:30

Материалы: GitHub этого курса, GitHub первого модуля МАДа, Stepik, Лекции Евгения Соколова

Ссылка на варианты коллоквиума на платформе

Правила: 80 мин, 2 варианта, пользоваться можно всем (кроме мессенджеров и людей), подключиться нужно со включенной камерой, при зафиксированном факте списывания оценка за коллок обнуляется всем, кто к этому списыванию был непосредственно причастен

Экзамен

Литература

  • Hastie T., Tibshirani R, Friedman J. The Elements of Statistical Learning (2nd edition). Springer, 2009
  • Bishop C. M. Pattern Recognition and Machine Learning. Springer, 2006.
  • Willi Richert, Luis Pedro Coelho. Building Machine Learning Systems with Python. Packt Publishing, 2013.