МОВС Машинное обучение 2022-23 — различия между версиями
м (add colloque and exam paragraphs) |
(add hw3, seminars 9-11) |
||
Строка 13: | Строка 13: | ||
{| class="wikitable" | {| class="wikitable" | ||
|- | |- | ||
− | ! | + | ! Ассистенты !! Контакты |
|- | |- | ||
| style="background:#eaecf0;" | Савелий || [https://t.me/Savely_Prokhorov @Savely_Prokhorov] | | style="background:#eaecf0;" | Савелий || [https://t.me/Savely_Prokhorov @Savely_Prokhorov] | ||
+ | |- | ||
+ | | style="background:#eaecf0;" | Марк Блуменау || [https://t.me/markblumenau @markblumenau] | ||
+ | |- | ||
+ | | style="background:#eaecf0;" | Валерия Кондратьева || [https://t.me/pulgatoryrealm @pulgatoryrealm] | ||
+ | |- | ||
+ | | style="background:#eaecf0;" | Егор || [https://t.me/Nogaromo @Nogaromo] | ||
|- | |- | ||
|} | |} | ||
Строка 105: | Строка 111: | ||
| Конец первого модуля курса | | | Конец первого модуля курса | | ||
|- | |- | ||
− | | style="background:#eaecf0;" | '''10''', [[ Запись]] || | + | | style="background:#eaecf0;" | '''9''', [[https://www.youtube.com/watch?v=wiGSypQ0CQY&list=PLmA-1xX7IuzDYv6ZLvAbW7oJPh2kRbm50 Запись]] || |
+ | Быстрый поиск ближайших соседей, LSH | ||
+ | || 20.01.23 || [https://stepik.org/lesson/856948/step/1?unit=860947 Модуль на Stepik] и домашка по KNN + LSH || [https://towardsdatascience.com/locality-sensitive-hashing-how-to-find-similar-items-in-a-large-set-with-precision-d907c52b05fc Статья по LSH на Medium] | ||
+ | |- | ||
+ | | style="background:#eaecf0;" | '''10''', [[https://www.youtube.com/watch?v=uyP7CijPG1s&list=PLmA-1xX7IuzDYv6ZLvAbW7oJPh2kRbm50 Запись]] || | ||
''Интерпретируемость ML-моделей:'' | ''Интерпретируемость ML-моделей:'' | ||
SHAP-values, LIME | SHAP-values, LIME | ||
− | || | + | || 27.01.23 || [https://habr.com/ru/post/428213/ Статья про SHAP], [https://habr.com/ru/company/ods/blog/599573/#2 Статья про Lime] (SHAP там тоже есть) || |
|- | |- | ||
− | | style="background:#eaecf0;" | '''11''', [[ | + | | style="background:#eaecf0;" | '''11''', [[https://www.youtube.com/watch?v=umlC_3q6RVA&list=PLmA-1xX7IuzDYv6ZLvAbW7oJPh2kRbm50 Запись]] || |
− | + | ||
− | + | ||
− | + | ||
− | + | ||
− | + | ||
− | + | ||
− | + | ||
− | + | ||
− | + | ||
− | + | ||
− | + | ||
− | + | ||
''Кластеризация:'' | ''Кластеризация:'' | ||
K-means, (H)DBSCAN, метрики качества (внутренние и внешние) | K-means, (H)DBSCAN, метрики качества (внутренние и внешние) | ||
− | || | + | || 03.02.23 || |
+ | [https://www.youtube.com/watch?v=FjD8p8IZdhA&list=PLEwK9wdS5g0qi14fXKFnFzruUDg3nl6db&index=42&t=900s Лекция], [https://github.com/Murcha1990/MLDS_ML_2022/blob/main/%D0%97%D0%B0%D0%BD%D1%8F%D1%82%D0%B8%D0%B5_11_clustering/Lection_11_2022.pdf Слайды к ней], | ||
+ | |||
+ | [https://github.com/esokolov/ml-course-hse/blob/master/2021-fall/lecture-notes/lecture12-unsupervised.pdf Конспект Евгения Соколова], | ||
+ | |||
+ | [https://towardsdatascience.com/dbscan-clustering-explained-97556a2ad556 Статья про DBSCAN], [https://towardsdatascience.com/understanding-hdbscan-and-density-based-clustering-121dbee1320e Статья про HDBSCAN] | ||
+ | || | ||
|- | |- | ||
− | | style="background:#eaecf0;" | ''' | + | | style="background:#eaecf0;" | '''Доп''', [[ Запись]] || |
+ | Татьяна Гайнцева "Отличия industrial от research ML" | ||
+ | || 10.02.23 || || | ||
+ | |- | ||
+ | | style="background:#eaecf0;" | '''12''', [[ Запись]] || | ||
''Кластеризация - 2:'' | ''Кластеризация - 2:'' | ||
Иерархическая кластеризация, подходы к графовой кластеризации | Иерархическая кластеризация, подходы к графовой кластеризации | ||
− | || | + | || 17.02.23 || || |
|- | |- | ||
− | | style="background:#eaecf0;" | ''' | + | | style="background:#eaecf0;" | '''13''', [[ Запись]] || |
''Рекомендательные системы и ранжирование:'' | ''Рекомендательные системы и ранжирование:'' | ||
Строка 141: | Строка 149: | ||
|| || || | || || || | ||
|- | |- | ||
− | | style="background:#eaecf0;" | ''' | + | | style="background:#eaecf0;" | '''14''', [[ Запись]] || |
''Рекомендательные системы и ранжирование - 2:'' | ''Рекомендательные системы и ранжирование - 2:'' | ||
Строка 147: | Строка 155: | ||
|| || || | || || || | ||
|- | |- | ||
− | | style="background:#eaecf0;" | ''' | + | | style="background:#eaecf0;" | '''-''', [[ Запись]] || |
+ | ''AutoML:'' | ||
+ | |||
+ | Подбор гиперпараметров (optunа), фреймворки (H2O, TPOT, auto-sklearn и MLBox) | ||
+ | || || || | ||
|- | |- | ||
− | | style="background:#eaecf0;" | ''' | + | | style="background:#eaecf0;" | '''-''', [[ Запись]] || |
+ | ''Прогнозирование временных рядов:'' | ||
+ | |||
+ | Особенности работы со временными рядами (сэмплинг), характеристики временных рядов (стационарность, сезонность, автокорреляция), библиотеки для прогнозирования TS (prophet) | ||
+ | || || || | ||
+ | |- | ||
+ | |- | ||
+ | | style="background:#eaecf0;" | '''-''', [[ Запись]] || || || || | ||
+ | |- | ||
+ | | style="background:#eaecf0;" | '''-''', [[ Запись]] || || || || | ||
|- | |- | ||
|} | |} | ||
Строка 168: | Строка 189: | ||
Инвайт в Anytask: ''T18GYvZ'' | Инвайт в Anytask: ''T18GYvZ'' | ||
− | + | # LinReg + inference: [[https://github.com/Murcha1990/MLDS_ML_2022/blob/main/Hometasks/HT1/HW1_Regression_with_inference.ipynb Тетрадка]] [[https://t.me/c/1784973718/15 Видео]] | '''Дедлайн - 04.12.22 23:59 МСК''' | |
− | + | # First Step in NLP Bootcamp: [[https://www.kaggle.com/t/eb20383504ce4d85ba27c5b12e7767ec Соревнование]] [[https://stepik.org/course/129443/promo Материалы буткемпа]] | '''Дедлайн - 11.12.22 17:00 МСК''' | |
− | + | # Сравнение деревянных моделей + SQL: [[https://colab.research.google.com/drive/154fRR9jE_PMV9dfHaKeLVhrMvaZgCc9I?usp=sharing Ноутбук]] | '''Мягкий дедлайн - 11.02.23 23:59 МСК''' | |
− | + | # Кластеризация | |
− | + | # RecSys | |
− | + | # (Бонус) Большая практическая работа // Самостоятельная реализация алгоритмов МО | |
− | + | ||
− | + | ||
== Коллоквиум == | == Коллоквиум == |
Версия 11:20, 6 февраля 2023
Содержание
О курсе
Занятия проводятся в Zoom по пятницам в 18:00
Контакты
Канал курса в TG: [channel link]
Чат курса в TG: [chat link]
Преподаватели: Кантонистова Елена Олеговна, Максимовская Анастасия Максимовна
Ассистенты | Контакты |
---|---|
Савелий | @Savely_Prokhorov |
Марк Блуменау | @markblumenau |
Валерия Кондратьева | @pulgatoryrealm |
Егор | @Nogaromo |
Материалы курса
Ссылка на плейлист курса на YouTube: YouTube-playlist
Ссылка на GitHub с материалами курса: [GitHub repository]
В плане курса (ниже) возможны изменения: как количественные (число занятий), так и качественные (их содержание).
Занятие | Тема | Дата | Материалы для самоподготовки к семинарам | Дополнительные материалы |
---|---|---|---|---|
1, [Запись] |
[Материалы] Линейные методы регрессии: Нормализация данных, feature engineering, метрики качества регрессии. Методы оценивания обобщающей способности моделей, кросс-валидация |
11.11.22 |
Вводная в ML лекция и презентация к ней Урок "Введение в МО. Схема проекта по МО" на Stepik |
|
2, [Гр. 1 - Елена, Гр.2 - Настя] |
Линейная регрессия. Продолжение |
19.11.22 | ||
3, [Запись] |
Линейные методы классификации - 1: Логистическая регрессия, калибровка вероятностей. kNN |
25.11.22 |
Лекция про классификацию; ноутбук для самопроверки Stepik: кросс-валидация, параметры и гиперпараметры, связь ML-метрик с бизнесом |
|
4, [Запись] |
Линейные методы классификации - 2: SVM, SVM-kernels. Метрики качества классификации. Счётчики. |
02.12.22 |
Лекция про SVM и метрики классификации |
Ноутбук с семинара |
5, [Запись] |
Снижение размерности данных: Методы отбора признаков, расширения SVD, MDS, t-SNE |
07.12.22 | ||
6, [Гр.1 (Елена), Гр.2 (Настя)] |
Решающие деревья и их композиции: Алгоритм построения дерева, критерии информативности (регрессия и классификация), обработка пропусков для деревьев, стрижка и регуляризация |
09.12.22 |
Лекция (с 25-й минуты), Конспект Евгения Соколова Неоцениваемый тест по деревьям и AUC-ROC |
|
7, [Запись] |
Решающие деревья и их композиции - 2: Разложение ошибки на шум, смещение и разброс; бэггинг; случайный лес |
16.12.22 |
Параграф "Разложение ошибки на смещение и разброс" Лекция про разложение ошибки и случайный лес, Конспект к ней |
|
8, [Запись] |
Решающие деревья и их композиции - 3: Бустинг, градиентный бустинг над решающими деревьями, различные интерпретации GB; прочие подходы к ансамблированию |
19.12.22 |
Лекция, Конспект про градиентный бустинг, Текст про его модификации |
|
9, [Запись] |
Быстрый поиск ближайших соседей, LSH |
20.01.23 | Модуль на Stepik и домашка по KNN + LSH | Статья по LSH на Medium |
10, [Запись] |
Интерпретируемость ML-моделей: SHAP-values, LIME |
27.01.23 | Статья про SHAP, Статья про Lime (SHAP там тоже есть) | |
11, [Запись] |
Кластеризация: K-means, (H)DBSCAN, метрики качества (внутренние и внешние) |
03.02.23 | ||
Доп, Запись |
Татьяна Гайнцева "Отличия industrial от research ML" |
10.02.23 | ||
12, Запись |
Кластеризация - 2: Иерархическая кластеризация, подходы к графовой кластеризации |
17.02.23 | ||
13, Запись |
Рекомендательные системы и ранжирование: Ранжирование, метрики качества ранжирования (попарные, поточечные, списковые) |
|||
14, Запись |
Рекомендательные системы и ранжирование - 2: Переход от ранжирования к рекомендациям, метрики качества рекомендаций. Коллаборативная фильтрация, матричные разложения и факторизационные машины |
|||
-, Запись |
AutoML: Подбор гиперпараметров (optunа), фреймворки (H2O, TPOT, auto-sklearn и MLBox) |
|||
-, Запись |
Прогнозирование временных рядов: Особенности работы со временными рядами (сэмплинг), характеристики временных рядов (стационарность, сезонность, автокорреляция), библиотеки для прогнозирования TS (prophet) |
|||
-, Запись | ||||
-, Запись |
Записи консультаций
1. Консультация к соревнованию First Step in NLP Bootcamp (05.12.22) [Notion-страница с советами]
2. Консультация к коллоквиуму (27.12.22)
Формула оценивания
Оценка = 0 * ОТренировочные тесты + 0.075 * ОПромежуточные тесты + 0.075 * О Взаимопроверка + 0.1 * ОКоллоквиум + 0.15 * ОЭкзамен + 0.6 * ОДЗ
Автоматы: Если накопленная оценка больше или равна 8, то она по желанию студента ставится в качестве итоговой оценки. Для получения автомата также необходимо получить за коллоквиум не менее 6 баллов.
P.S. Под накопленной оценкой до экзамена понимаем Накоп_до_экза = Оценка / 0.85
Домашние задания
Инвайт в Anytask: T18GYvZ
- LinReg + inference: [Тетрадка] [Видео] | Дедлайн - 04.12.22 23:59 МСК
- First Step in NLP Bootcamp: [Соревнование] [Материалы буткемпа] | Дедлайн - 11.12.22 17:00 МСК
- Сравнение деревянных моделей + SQL: [Ноутбук] | Мягкий дедлайн - 11.02.23 23:59 МСК
- Кластеризация
- RecSys
- (Бонус) Большая практическая работа // Самостоятельная реализация алгоритмов МО
Коллоквиум
Демо-вариант, Темы для подготовки
Коллоквиум проёдетпрошёл 28.12.22 в 19:30
Материалы: GitHub этого курса, GitHub первого модуля МАДа, Stepik, Лекции Евгения Соколова
Ссылка на варианты коллоквиума на платформе
Правила: 80 мин, 2 варианта, пользоваться можно всем (кроме мессенджеров и людей), подключиться нужно со включенной камерой, при зафиксированном факте списывания оценка за коллок обнуляется всем, кто к этому списыванию был непосредственно причастен
Экзамен
Литература
- Hastie T., Tibshirani R, Friedman J. The Elements of Statistical Learning (2nd edition). Springer, 2009
- Bishop C. M. Pattern Recognition and Machine Learning. Springer, 2006.
- Willi Richert, Luis Pedro Coelho. Building Machine Learning Systems with Python. Packt Publishing, 2013.