МОВС Машинное обучение 2022-23 — различия между версиями

Материал из Wiki - Факультет компьютерных наук
Перейти к: навигация, поиск
м (tiny formatting change)
м (final UPD)
 
(не показано 12 промежуточных версии этого же участника)
Строка 2: Строка 2:
  
 
Занятия проводятся в [https://us06web.zoom.us/j/86502134639?pwd=bDBjU2ljclg2MWVGTU9BTzA4dnhyUT09 Zoom] '''по пятницам в 18:00'''
 
Занятия проводятся в [https://us06web.zoom.us/j/86502134639?pwd=bDBjU2ljclg2MWVGTU9BTzA4dnhyUT09 Zoom] '''по пятницам в 18:00'''
 
Онлайн-курс в дополнение к парам: [[ online-course link]]
 
  
 
==Контакты==
 
==Контакты==
Строка 15: Строка 13:
 
{| class="wikitable"
 
{| class="wikitable"
 
|-
 
|-
! Ассистент !! Контакты  
+
! Ассистенты !! Контакты  
 
|-
 
|-
 
| style="background:#eaecf0;" | Савелий || [https://t.me/Savely_Prokhorov @Savely_Prokhorov]  
 
| style="background:#eaecf0;" | Савелий || [https://t.me/Savely_Prokhorov @Savely_Prokhorov]  
 +
|-
 +
| style="background:#eaecf0;" | Марк Блуменау || [https://t.me/markblumenau @markblumenau]
 +
|-
 +
| style="background:#eaecf0;" | Валерия Кондратьева || [https://t.me/pulgatoryrealm @pulgatoryrealm]
 +
|-
 +
| style="background:#eaecf0;" | Егор || [https://t.me/Nogaromo @Nogaromo]
 
|-
 
|-
 
|}
 
|}
Строка 24: Строка 28:
 
Ссылка на плейлист курса на YouTube: [https://www.youtube.com/playlist?list=PLmA-1xX7IuzDYv6ZLvAbW7oJPh2kRbm50 YouTube-playlist]
 
Ссылка на плейлист курса на YouTube: [https://www.youtube.com/playlist?list=PLmA-1xX7IuzDYv6ZLvAbW7oJPh2kRbm50 YouTube-playlist]
  
Ссылка на GitHub с материалами курса: [[ GitHub repository]]
+
Ссылка на GitHub с материалами курса: [[https://github.com/Murcha1990/MLDS_ML_2022 GitHub repository]]
  
 
''В плане курса (ниже) возможны изменения: как количественные (число занятий), так и качественные (их содержание).''
 
''В плане курса (ниже) возможны изменения: как количественные (число занятий), так и качественные (их содержание).''
Строка 31: Строка 35:
 
  ! Занятие !! Тема !! Дата !! Материалы для самоподготовки к семинарам !! Дополнительные материалы
 
  ! Занятие !! Тема !! Дата !! Материалы для самоподготовки к семинарам !! Дополнительные материалы
 
|-
 
|-
| style="background:#eaecf0;" | '''1''', [[ Запись]] ||   
+
| style="background:#eaecf0;" | '''1''', [[https://www.youtube.com/watch?v=CUUpSfaMbrw&list=PLmA-1xX7IuzDYv6ZLvAbW7oJPh2kRbm50 Запись]] ||   
''Линейные методы регрессии:''
+
[[https://github.com/Murcha1990/MLDS_ML_2022/tree/main/Занятие%201 Материалы]] ''Линейные методы регрессии:''
  
 
Нормализация данных, feature engineering, метрики качества регрессии. Методы оценивания обобщающей способности моделей, кросс-валидация  
 
Нормализация данных, feature engineering, метрики качества регрессии. Методы оценивания обобщающей способности моделей, кросс-валидация  
|| 04.11.22 ||  
+
|| 11.11.22 ||  
 +
Вводная в ML [https://events.webinar.ru/54933491/816076396/record-new/1190615158 лекция] и [https://disk.yandex.ru/d/SFQyezcDnQP_xQ презентация] к ней
  
 +
Урок [https://stepik.org/lesson/806515/step/1?unit=809691 "Введение в МО. Схема проекта по МО"] на Stepik
 
||  
 
||  
 
|-
 
|-
| style="background:#eaecf0;" | '''2''', [[ Запись]] ||  
+
| style="background:#eaecf0;" | '''2''', [[https://www.youtube.com/watch?v=PtHQCZ31p_Q&list=PLmA-1xX7IuzDYv6ZLvAbW7oJPh2kRbm50 Гр. 1 - Елена], [https://www.youtube.com/watch?v=mXM9FrQcZSk&list=PLmA-1xX7IuzDYv6ZLvAbW7oJPh2kRbm50 Гр.2 - Настя]] ||  
''Линейные методы классификации:''
+
''Линейная регрессия. Продолжение''
 
+
|| 19.11.22 ||  
Логистическая регрессия, калибровка вероятностей, метрики качества классификация
+
|| 11.11.22 ||  
+
  
 
||  
 
||  
 
|-
 
|-
| style="background:#eaecf0;" | '''3''', [[ Запись]] ||  
+
| style="background:#eaecf0;" | '''3''', [[https://www.youtube.com/watch?v=Uzj2sGvyF7Y&list=PLmA-1xX7IuzDYv6ZLvAbW7oJPh2kRbm50 Запись]] ||  
''Линейные методы классификации - 2:''
+
''Линейные методы классификации - 1:''
  
SVM, SVM-kernels, многоклассовая и multilabel-классификации
+
Логистическая регрессия, калибровка вероятностей. kNN
|| 18.11.22 ||  
+
|| 25.11.22 ||  
 +
[https://youtu.be/hM64I2xcirM?list=PLEwK9wdS5g0qi14fXKFnFzruUDg3nl6db&t=545 Лекция] про классификацию; [https://github.com/Murcha1990/MLDS_ML_2022/blob/main/%D0%97%D0%B0%D0%BD%D1%8F%D1%82%D0%B8%D0%B5%203/LogReg.ipynb ноутбук] для самопроверки
  
 +
Stepik: [https://stepik.org/lesson/806516/step/1?unit=809692 кросс-валидация, параметры и гиперпараметры], [https://stepik.org/lesson/806466/step/1?unit=809642 связь ML-метрик с бизнесом]
 
||
 
||
 
|-
 
|-
| style="background:#eaecf0;" | '''4''', [[ Запись]] ||  
+
| style="background:#eaecf0;" | '''4''', [[https://www.youtube.com/watch?v=BsoVGjTS9u0&list=PLmA-1xX7IuzDYv6ZLvAbW7oJPh2kRbm50 Запись]] ||  
''Метрические классификаторы:''
+
''Линейные методы классификации - 2:''
  
kNN, naive Bayes classifier, быстрый поиск ближайших соседей
+
SVM, SVM-kernels. Метрики качества классификации. Счётчики.
|| 25.11.22 ||
+
|| 02.12.22 ||  
 +
[https://www.youtube.com/watch?v=dznJjpgJk1M&list=PLEwK9wdS5g0qi14fXKFnFzruUDg3nl6db Лекция] про SVM и метрики классификации
  
||  
+
[https://docs.google.com/forms/d/e/1FAIpQLSdBt3vazDPEO89GiTwA_bTN43KCgG3waTOij7-MSQnuchwx1w/viewform?usp=sf_link Неоцениваемый тест]
 +
|| [https://colab.research.google.com/drive/1FShhecmXa3auinR3vugPGQAzE8CN2eaX?usp=sharing Ноутбук] с семинара
 
|-
 
|-
| style="background:#eaecf0;" | '''5''', [[ Запись]] ||
+
| style="background:#eaecf0;" | '''5''', [[https://www.youtube.com/watch?v=Nx2dJFV8PiI&list=PLmA-1xX7IuzDYv6ZLvAbW7oJPh2kRbm50 Запись]] ||  
''Обработка признаков и работа с выбросами:''
+
 
+
Способы работы с пропущенными значениями, поиск аномалий, кодирование категориальных признаков (счётчики)
+
|| 02.12.22 ||
+
 
+
||
+
|-
+
| style="background:#eaecf0;" | '''6''', [[ Запись]] ||  
+
 
''Снижение размерности данных:''
 
''Снижение размерности данных:''
  
 
Методы отбора признаков, расширения SVD, MDS, t-SNE
 
Методы отбора признаков, расширения SVD, MDS, t-SNE
|| 09.12.22 ||
+
|| 07.12.22 ||
 
+
[https://www.youtube.com/watch?v=Amm-LR9OkL0&list=PLEwK9wdS5g0qi14fXKFnFzruUDg3nl6db Лекция]
 
||  
 
||  
 
|-
 
|-
| style="background:#eaecf0;" | '''7''', [[ Запись]] ||  
+
| style="background:#eaecf0;" | '''6''', [[https://www.youtube.com/watch?v=0knaj1xIBVs&list=PLmA-1xX7IuzDYv6ZLvAbW7oJPh2kRbm50 Гр.1 (Елена)], [https://www.youtube.com/watch?v=IVy-U6vEYlI&list=PLmA-1xX7IuzDYv6ZLvAbW7oJPh2kRbm50 Гр.2 (Настя)]] ||  
 
''Решающие деревья и их композиции:''
 
''Решающие деревья и их композиции:''
  
 
Алгоритм построения дерева, критерии информативности (регрессия и классификация), обработка пропусков для деревьев, стрижка и регуляризация  
 
Алгоритм построения дерева, критерии информативности (регрессия и классификация), обработка пропусков для деревьев, стрижка и регуляризация  
|| 16.12.22 ||  
+
|| 09.12.22 ||  
 +
[https://www.youtube.com/watch?v=vyIdAjcOFrE&list=PLEwK9wdS5g0qi14fXKFnFzruUDg3nl6db Лекция] (с 25-й минуты), [https://github.com/esokolov/ml-course-hse/blob/master/2021-fall/lecture-notes/lecture08-trees.pdf Конспект] Евгения Соколова
  
 +
[https://docs.google.com/forms/d/e/1FAIpQLSd-hpKFIVuhd4YKcvf76QwZil9mlVMfBf6wqEqRcaG1xTCoMw/viewform?usp=sf_link Неоцениваемый тест] по деревьям и AUC-ROC
 
||  
 
||  
 
|-
 
|-
| style="background:#eaecf0;" | '''8''', [[ Запись]] ||  
+
| style="background:#eaecf0;" | '''7''', [[https://www.youtube.com/watch?v=BUCOJCb7a9Q&list=PLmA-1xX7IuzDYv6ZLvAbW7oJPh2kRbm50 Запись]] ||  
 
''Решающие деревья и их композиции - 2:''  
 
''Решающие деревья и их композиции - 2:''  
  
 
Разложение ошибки на шум, смещение и разброс; бэггинг; случайный лес
 
Разложение ошибки на шум, смещение и разброс; бэггинг; случайный лес
|| ||  
+
|| 16.12.22 ||  
 +
[https://habr.com/ru/company/ods/blog/323890/ Параграф "Разложение ошибки на смещение и разброс"]
 +
 
 +
[https://stepik.org/course/125501/syllabus Уроки 6.4, 6.5 на Stepik]
  
 +
[https://www.youtube.com/watch?v=X4arg_OLxUk&list=PLEwK9wdS5g0qi14fXKFnFzruUDg3nl6db Лекция] про разложение ошибки и случайный лес, [https://github.com/esokolov/ml-course-hse/blob/master/2021-fall/lecture-notes/lecture09-ensembles.pdf Конспект] к ней
 
||  
 
||  
 
|-
 
|-
| style="background:#eaecf0;" | '''9''', [[ Запись]] ||  
+
| style="background:#eaecf0;" | '''8''', [[https://www.youtube.com/watch?v=KDxPNMjZHas&list=PLmA-1xX7IuzDYv6ZLvAbW7oJPh2kRbm50 Запись]] ||  
 
''Решающие деревья и их композиции - 3:''  
 
''Решающие деревья и их композиции - 3:''  
  
 
Бустинг, градиентный бустинг над решающими деревьями, различные интерпретации GB; прочие подходы к ансамблированию  
 
Бустинг, градиентный бустинг над решающими деревьями, различные интерпретации GB; прочие подходы к ансамблированию  
|| ||  
+
|| 19.12.22 ||  
 
+
[https://www.youtube.com/watch?v=i7i70FkWUL8&list=PLEwK9wdS5g0qi14fXKFnFzruUDg3nl6db&index=36#t=12m01s Лекция], [https://github.com/esokolov/ml-course-hse/blob/master/2021-fall/lecture-notes/lecture10-ensembles.pdf Конспект] про градиентный бустинг, [https://github.com/esokolov/ml-course-hse/blob/master/2021-fall/lecture-notes/lecture11-ensembles.pdf Текст] про его модификации
 
||
 
||
 
|-
 
|-
 
| Конец первого модуля курса |
 
| Конец первого модуля курса |
 
|-
 
|-
| style="background:#eaecf0;" | '''10''', [[ Запись]] ||
+
| style="background:#eaecf0;" | '''9''', [[https://www.youtube.com/watch?v=wiGSypQ0CQY&list=PLmA-1xX7IuzDYv6ZLvAbW7oJPh2kRbm50 Запись]] ||
 +
Быстрый поиск ближайших соседей, LSH
 +
|| 20.01.23 || [https://stepik.org/lesson/856948/step/1?unit=860947 Модуль на Stepik] и домашка по KNN + LSH || [https://towardsdatascience.com/locality-sensitive-hashing-how-to-find-similar-items-in-a-large-set-with-precision-d907c52b05fc Статья по LSH на Medium]
 +
|-
 +
| style="background:#eaecf0;" | '''10''', [[https://www.youtube.com/watch?v=uyP7CijPG1s&list=PLmA-1xX7IuzDYv6ZLvAbW7oJPh2kRbm50 Запись]] ||
 
''Интерпретируемость ML-моделей:''
 
''Интерпретируемость ML-моделей:''
  
 
SHAP-values, LIME
 
SHAP-values, LIME
|| || ||
+
|| 27.01.23 || [https://habr.com/ru/post/428213/ Статья про SHAP], [https://habr.com/ru/company/ods/blog/599573/#2 Статья про Lime] (SHAP там тоже есть) ||  
|-
+
| style="background:#eaecf0;" | '''11''', [[ Запись]]  ||
+
''AutoML:''
+
 
+
Подбор гиперпараметров (optunа), фреймворки (H2O, TPOT, auto-sklearn и MLBox)
+
||  || ||  
+
 
|-
 
|-
| style="background:#eaecf0;" | '''12''', [[ Запись]] ||
+
| style="background:#eaecf0;" | '''11''', [[https://www.youtube.com/watch?v=umlC_3q6RVA&list=PLmA-1xX7IuzDYv6ZLvAbW7oJPh2kRbm50 Запись]] ||   
''Прогнозирование временных рядов:''
+
 
+
Особенности работы со временными рядами (сэмплинг), характеристики временных рядов (стационарность, сезонность, автокорреляция), библиотеки для прогнозирования TS (prophet)
+
||  || ||
+
|-
+
| style="background:#eaecf0;" | '''13''', [[ Запись]] ||   
+
 
''Кластеризация:''
 
''Кластеризация:''
  
 
K-means, (H)DBSCAN, метрики качества (внутренние и внешние)
 
K-means, (H)DBSCAN, метрики качества (внутренние и внешние)
||  || ||  
+
|| 03.02.23 ||
 +
[https://www.youtube.com/watch?v=FjD8p8IZdhA&list=PLEwK9wdS5g0qi14fXKFnFzruUDg3nl6db&index=42&t=900s Лекция], [https://github.com/Murcha1990/MLDS_ML_2022/blob/main/%D0%97%D0%B0%D0%BD%D1%8F%D1%82%D0%B8%D0%B5_11_clustering/Lection_11_2022.pdf Слайды к ней],
 +
   
 +
[https://github.com/esokolov/ml-course-hse/blob/master/2021-fall/lecture-notes/lecture12-unsupervised.pdf Конспект Евгения Соколова],
 +
 
 +
[https://towardsdatascience.com/dbscan-clustering-explained-97556a2ad556 Статья про DBSCAN], [https://towardsdatascience.com/understanding-hdbscan-and-density-based-clustering-121dbee1320e Статья про HDBSCAN]
 +
||
 +
|-
 +
| style="background:#eaecf0;" | '''Доп''', [[https://www.youtube.com/watch?v=fnBPnc6Mfb4&list=PLmA-1xX7IuzDYv6ZLvAbW7oJPh2kRbm50 Запись]] || 
 +
Татьяна Гайнцева "Отличия industrial от research ML"
 +
|| 10.02.23 || ||  
 
|-
 
|-
| style="background:#eaecf0;" | '''14''', [[ Запись]] ||   
+
| style="background:#eaecf0;" | '''12''', [[https://www.youtube.com/watch?v=aJXArPWUQ6w&list=PLmA-1xX7IuzDYv6ZLvAbW7oJPh2kRbm50 Запись]] ||   
''Кластеризация - 2:''
+
''Кластеризация - 2, Optuna''
  
 
Иерархическая кластеризация, подходы к графовой кластеризации
 
Иерархическая кластеризация, подходы к графовой кластеризации
|| || ||  
+
|| 17.02.23 || [https://github.com/esokolov/ml-course-hse/blob/master/2020-spring/lecture-notes/lecture17-clusterization.pdf Лекция] Е. Соколова по графовой кластеризации, [https://towardsdatascience.com/spectral-clustering-aba2640c0d5b Текст (Eng)] про спектральную кластеризацию ||  
 
|-
 
|-
| style="background:#eaecf0;" | '''15''', [[ Запись]] ||   
+
| style="background:#eaecf0;" | '''13''', [[https://www.youtube.com/watch?v=dEKT3bDJAH0&list=PLmA-1xX7IuzDYv6ZLvAbW7oJPh2kRbm50 Запись]] ||   
 
''Рекомендательные системы и ранжирование:''
 
''Рекомендательные системы и ранжирование:''
  
Ранжирование, метрики качества ранжирования (попарные, поточечные, списковые)
+
Ранжирование, метрики качества ранжирования (попарные, поточечные, списковые), основные подходы к построению рекомендаций
||  || ||  
+
|| 24.02.23 || ||  
 
|-
 
|-
| style="background:#eaecf0;" | '''16''', [[ Запись]] ||   
+
| style="background:#eaecf0;" | '''14''', [[https://www.youtube.com/watch?v=p4JYVxHOO0w&list=PLmA-1xX7IuzDYv6ZLvAbW7oJPh2kRbm50 Запись]] ||   
 
''Рекомендательные системы и ранжирование - 2:''
 
''Рекомендательные системы и ранжирование - 2:''
  
Переход от ранжирования к рекомендациям, метрики качества рекомендаций. Коллаборативная фильтрация, матричные разложения и факторизационные машины
+
Бустинги и факторизационные машины для рекомендаций
|| || ||  
+
|| 03.03.23 || [https://github.com/esokolov/ml-course-hse/blob/master/2020-spring/lecture-notes/lecture23-recommender.pdf Конспект 1], [https://github.com/esokolov/ml-course-hse/blob/master/2020-spring/lecture-notes/lecture24-recommender.pdf Конспект 2], [https://towardsdatascience.com/factorization-machines-for-item-recommendation-with-implicit-feedback-data-5655a7c749db Статья про FM] (eng) || [https://habr.com/ru/company/econtenta/blog/303458/ Статья про метрики качества ранжирования]
 
|-
 
|-
| style="background:#eaecf0;" | '''17''', [[ Запись]] || || || ||  
+
| style="background:#eaecf0;" | '''15''', [[https://www.youtube.com/watch?v=GJo6IuTtu68&list=PLmA-1xX7IuzDYv6ZLvAbW7oJPh2kRbm50 Запись]] ||  
 +
''Детекция аномалий и дисбаланс классов''
 +
|| 10.03.23 || [https://alexanderdyakonov.wordpress.com/2021/05/27/imbalance/ Статья Дьяконова] про дисбаланс классов, [https://github.com/esokolov/ml-course-hse/blob/master/2019-spring/lecture-notes/lecture16-anomaly.pdf Конспект] про детекцию аномалий ||  
 
|-
 
|-
| style="background:#eaecf0;" | '''18''', [[ Запись]] || || || ||  
+
| style="background:#eaecf0;" | '''16''', [[https://www.youtube.com/watch?v=Mj4ohYIMaIs&list=PLmA-1xX7IuzDYv6ZLvAbW7oJPh2kRbm50 Запись]] ||
 +
''Прогнозирование временных рядов:''
 +
 
 +
Особенности работы со временными рядами (сэмплинг), характеристики временных рядов (стационарность, сезонность, автокорреляция), библиотеки для прогнозирования TS (prophet)
 +
|| 17.03.23 || ||  
 
|-
 
|-
 
|}
 
|}
  
 
=== Записи консультаций ===
 
=== Записи консультаций ===
 +
1. [https://www.youtube.com/watch?v=timkOT1gRA0&list=PLmA-1xX7IuzDYv6ZLvAbW7oJPh2kRbm50 Консультация] к соревнованию First Step in NLP Bootcamp (05.12.22) [[https://sticky-impulse-1a9.notion.site/027d5b67a9574924b730eaadce3f8755 Notion-страница с советами]]
 +
 +
2. [https://www.youtube.com/watch?v=kLHpFZ5wHoo&list=PLmA-1xX7IuzDYv6ZLvAbW7oJPh2kRbm50 Консультация] к коллоквиуму (27.12.22)
  
 
==Формула оценивания==
 
==Формула оценивания==
Оценка = 0 * О<sub>Тренировочные тесты</sub> + 0.075 * О<sub>Промежуточные тесты</sub> + 0.075 * О <sub>Взаимопроверка</sub> + 0.1 * О<sub>Коллоквиум</sub> + 0.15 * О<sub>Экзамен</sub> + 0.6 * О<sub>ДЗ</sub>
+
Оценка = 0 * О<sub>Тренировочные тесты</sub> + 0.1 * О<sub>Промежуточные тесты</sub> + 0.1 * О<sub>Коллоквиум</sub> + 0.2 * О<sub>Экзамен</sub> + 0.6 * О<sub>ДЗ</sub> ('''1''')
  
'''Автоматы:''' Если накопленная оценка больше или равна 8, то она по желанию студента ставится в качестве итоговой оценки. Для получения автомата также необходимо получить за коллоквиум не менее 6 баллов.
+
'''Автоматы:''' Если накопленная до экзамена оценка (до округления) больше или равна 8, то она (после округления) по желанию студента ставится в качестве итоговой оценки. Для получения автомата '''также необходимо получить за коллоквиум не менее 6 баллов''' (неокругленных).
 +
 
 +
Под накопленной оценкой до экзамена понимаем ''Накоп_до_экзамена = Оценка / 0.8''
 +
 
 +
В случае если накопленная до экзамена оценка (опять же, до округления) < 8 и/или студент получил за коллоквиум во 2-м модуле < 6 баллов, то автомат за экзамен не предусмотрен. Итоговая оценка тогда считается по формуле ('''1'''), округляется и ставится в зачетку.
  
 
== Домашние задания ==
 
== Домашние задания ==
* LinReg + OOP
+
Инвайт в Anytask: ''T18GYvZ''
* LinearClassification + SQL
+
 
* Сравнение деревянных моделей + inference
+
# LinReg + inference: [[https://github.com/Murcha1990/MLDS_ML_2022/blob/main/Hometasks/HT1/HW1_Regression_with_inference.ipynb Тетрадка]] [[https://t.me/c/1784973718/15 Видео]] | '''Дедлайн - 04.12.22 23:59 МСК'''
 +
# First Step in NLP Bootcamp: [[https://www.kaggle.com/t/eb20383504ce4d85ba27c5b12e7767ec Соревнование]] [[https://stepik.org/course/129443/promo Материалы буткемпа]] | '''Дедлайн - 11.12.22 17:00 МСК'''
 +
# Сравнение деревянных моделей + SQL: [[https://github.com/Murcha1990/MLDS_ML_2022/blob/main/Hometasks/HT3/HW3_woodenML.ipynb Ноутбук]] | '''Мягкий дедлайн - 11.02.23 23:59 МСК'''
 +
# Кластеризация: [[https://github.com/Murcha1990/MLDS_ML_2022/tree/main/Hometasks/HT4/Hometask4_clustering.ipynb Ноутбук]] | '''Мягкий дедлайн - 05.03.23 23:59 МСК'''
 +
# RecSys: [[https://github.com/Murcha1990/MLDS_ML_2022/blob/main/Hometasks/HT5/Hometask5_RecSys.ipynb Ноутбук]] | '''Жёсткий дедлайн - '''<strike>24.03.23</strike> '''25.03.23 23:59 МСК'''
 +
 
 +
== Коллоквиум ==
 +
[https://docs.google.com/forms/d/e/1FAIpQLSdNPZ39xgAH5cE7bNHkLmYEHvcuiq9V9ttA4LuQZaEuNotMpQ/viewform?usp=sf_link Демо-вариант], [https://docs.google.com/document/d/1IRcxrTeAvLy2URt8S6xj_0uUA46OqIkoTuokx7FADJE/edit?usp=sharing Темы для подготовки]
 +
 
 +
Коллоквиум <strike>проёдет</strike>прошёл 28.12.22 в 19:30
 +
 
 +
Материалы: [https://github.com/Murcha1990/MLDS_ML_2022 GitHub этого курса], [https://github.com/Murcha1990/MLDS_math_2022 GitHub первого модуля МАДа], [https://stepik.org/course/125501/syllabus Stepik], [https://github.com/esokolov/ml-course-hse/tree/master/2021-fall/lecture-notes Лекции Евгения Соколова]
 +
 
 +
[https://online.hse.ru/course/view.php?id=4861 Ссылка на варианты коллоквиума на платформе]
 +
 
 +
'''Правила''': 80 мин, 2 варианта, пользоваться можно всем (кроме мессенджеров и людей), подключиться нужно со включенной камерой, при зафиксированном факте списывания оценка за коллок обнуляется всем, кто к этому списыванию был непосредственно причастен
  
 +
== Экзамен ==
 +
Экзамен по настоящему курсу пройдет <strike>ориентировочно</strike> 31 мая в формате собеседования. На каждого студента положено не больше 20 мин. Будет задано по меньшей мере два вопроса на понимание теории и одна задача. Времени на подготовку не будет
  
* Снижение размерности и визуализация
+
Список примеров и примеры задач: [https://docs.google.com/document/d/1fo_d5NNkrAi_J3snpVRy_QOsgmM8zXIs1ApG-UPUeQk/edit?usp=sharing GoogleDoc]
* Кластеризация
+
* Большая практическая работа // Kaggle // работа с текстами средствами ML-моделей (?) // RecSys (ML)
+
  
 
== Литература ==
 
== Литература ==

Текущая версия на 20:43, 28 марта 2023

О курсе

Занятия проводятся в Zoom по пятницам в 18:00

Контакты

Канал курса в TG: [channel link]

Чат курса в TG: [chat link]

Преподаватели: Кантонистова Елена Олеговна, Максимовская Анастасия Максимовна

Ассистенты Контакты
Савелий @Savely_Prokhorov
Марк Блуменау @markblumenau
Валерия Кондратьева @pulgatoryrealm
Егор @Nogaromo

Материалы курса

Ссылка на плейлист курса на YouTube: YouTube-playlist

Ссылка на GitHub с материалами курса: [GitHub repository]

В плане курса (ниже) возможны изменения: как количественные (число занятий), так и качественные (их содержание).

Занятие Тема Дата Материалы для самоподготовки к семинарам Дополнительные материалы
1, [Запись]

[Материалы] Линейные методы регрессии:

Нормализация данных, feature engineering, метрики качества регрессии. Методы оценивания обобщающей способности моделей, кросс-валидация

11.11.22

Вводная в ML лекция и презентация к ней

Урок "Введение в МО. Схема проекта по МО" на Stepik

2, [Гр. 1 - Елена, Гр.2 - Настя]

Линейная регрессия. Продолжение

19.11.22
3, [Запись]

Линейные методы классификации - 1:

Логистическая регрессия, калибровка вероятностей. kNN

25.11.22

Лекция про классификацию; ноутбук для самопроверки

Stepik: кросс-валидация, параметры и гиперпараметры, связь ML-метрик с бизнесом

4, [Запись]

Линейные методы классификации - 2:

SVM, SVM-kernels. Метрики качества классификации. Счётчики.

02.12.22

Лекция про SVM и метрики классификации

Неоцениваемый тест

Ноутбук с семинара
5, [Запись]

Снижение размерности данных:

Методы отбора признаков, расширения SVD, MDS, t-SNE

07.12.22

Лекция

6, [Гр.1 (Елена), Гр.2 (Настя)]

Решающие деревья и их композиции:

Алгоритм построения дерева, критерии информативности (регрессия и классификация), обработка пропусков для деревьев, стрижка и регуляризация

09.12.22

Лекция (с 25-й минуты), Конспект Евгения Соколова

Неоцениваемый тест по деревьям и AUC-ROC

7, [Запись]

Решающие деревья и их композиции - 2:

Разложение ошибки на шум, смещение и разброс; бэггинг; случайный лес

16.12.22

Параграф "Разложение ошибки на смещение и разброс"

Уроки 6.4, 6.5 на Stepik

Лекция про разложение ошибки и случайный лес, Конспект к ней

8, [Запись]

Решающие деревья и их композиции - 3:

Бустинг, градиентный бустинг над решающими деревьями, различные интерпретации GB; прочие подходы к ансамблированию

19.12.22

Лекция, Конспект про градиентный бустинг, Текст про его модификации

9, [Запись]

Быстрый поиск ближайших соседей, LSH

20.01.23 Модуль на Stepik и домашка по KNN + LSH Статья по LSH на Medium
10, [Запись]

Интерпретируемость ML-моделей:

SHAP-values, LIME

27.01.23 Статья про SHAP, Статья про Lime (SHAP там тоже есть)
11, [Запись]

Кластеризация:

K-means, (H)DBSCAN, метрики качества (внутренние и внешние)

03.02.23

Лекция, Слайды к ней,

Конспект Евгения Соколова,

Статья про DBSCAN, Статья про HDBSCAN

Доп, [Запись]

Татьяна Гайнцева "Отличия industrial от research ML"

10.02.23
12, [Запись]

Кластеризация - 2, Optuna

Иерархическая кластеризация, подходы к графовой кластеризации

17.02.23 Лекция Е. Соколова по графовой кластеризации, Текст (Eng) про спектральную кластеризацию
13, [Запись]

Рекомендательные системы и ранжирование:

Ранжирование, метрики качества ранжирования (попарные, поточечные, списковые), основные подходы к построению рекомендаций

24.02.23
14, [Запись]

Рекомендательные системы и ранжирование - 2:

Бустинги и факторизационные машины для рекомендаций

03.03.23 Конспект 1, Конспект 2, Статья про FM (eng) Статья про метрики качества ранжирования
15, [Запись]

Детекция аномалий и дисбаланс классов

10.03.23 Статья Дьяконова про дисбаланс классов, Конспект про детекцию аномалий
16, [Запись]

Прогнозирование временных рядов:

Особенности работы со временными рядами (сэмплинг), характеристики временных рядов (стационарность, сезонность, автокорреляция), библиотеки для прогнозирования TS (prophet)

17.03.23

Записи консультаций

1. Консультация к соревнованию First Step in NLP Bootcamp (05.12.22) [Notion-страница с советами]

2. Консультация к коллоквиуму (27.12.22)

Формула оценивания

Оценка = 0 * ОТренировочные тесты + 0.1 * ОПромежуточные тесты + 0.1 * ОКоллоквиум + 0.2 * ОЭкзамен + 0.6 * ОДЗ (1)

Автоматы: Если накопленная до экзамена оценка (до округления) больше или равна 8, то она (после округления) по желанию студента ставится в качестве итоговой оценки. Для получения автомата также необходимо получить за коллоквиум не менее 6 баллов (неокругленных).

Под накопленной оценкой до экзамена понимаем Накоп_до_экзамена = Оценка / 0.8

В случае если накопленная до экзамена оценка (опять же, до округления) < 8 и/или студент получил за коллоквиум во 2-м модуле < 6 баллов, то автомат за экзамен не предусмотрен. Итоговая оценка тогда считается по формуле (1), округляется и ставится в зачетку.

Домашние задания

Инвайт в Anytask: T18GYvZ

  1. LinReg + inference: [Тетрадка] [Видео] | Дедлайн - 04.12.22 23:59 МСК
  2. First Step in NLP Bootcamp: [Соревнование] [Материалы буткемпа] | Дедлайн - 11.12.22 17:00 МСК
  3. Сравнение деревянных моделей + SQL: [Ноутбук] | Мягкий дедлайн - 11.02.23 23:59 МСК
  4. Кластеризация: [Ноутбук] | Мягкий дедлайн - 05.03.23 23:59 МСК
  5. RecSys: [Ноутбук] | Жёсткий дедлайн - 24.03.23 25.03.23 23:59 МСК

Коллоквиум

Демо-вариант, Темы для подготовки

Коллоквиум проёдетпрошёл 28.12.22 в 19:30

Материалы: GitHub этого курса, GitHub первого модуля МАДа, Stepik, Лекции Евгения Соколова

Ссылка на варианты коллоквиума на платформе

Правила: 80 мин, 2 варианта, пользоваться можно всем (кроме мессенджеров и людей), подключиться нужно со включенной камерой, при зафиксированном факте списывания оценка за коллок обнуляется всем, кто к этому списыванию был непосредственно причастен

Экзамен

Экзамен по настоящему курсу пройдет ориентировочно 31 мая в формате собеседования. На каждого студента положено не больше 20 мин. Будет задано по меньшей мере два вопроса на понимание теории и одна задача. Времени на подготовку не будет

Список примеров и примеры задач: GoogleDoc

Литература

  • Hastie T., Tibshirani R, Friedman J. The Elements of Statistical Learning (2nd edition). Springer, 2009
  • Bishop C. M. Pattern Recognition and Machine Learning. Springer, 2006.
  • Willi Richert, Luis Pedro Coelho. Building Machine Learning Systems with Python. Packt Publishing, 2013.