МОВС Машинное обучение 2022-23 — различия между версиями
м (add lecture 2 video) |
м (half-course UPD) |
||
Строка 40: | Строка 40: | ||
|- | |- | ||
| style="background:#eaecf0;" | '''2''', [[https://www.youtube.com/watch?v=PtHQCZ31p_Q&list=PLmA-1xX7IuzDYv6ZLvAbW7oJPh2kRbm50 Гр. 1 - Елена], [https://www.youtube.com/watch?v=mXM9FrQcZSk&list=PLmA-1xX7IuzDYv6ZLvAbW7oJPh2kRbm50 Гр.2 - Настя]] || | | style="background:#eaecf0;" | '''2''', [[https://www.youtube.com/watch?v=PtHQCZ31p_Q&list=PLmA-1xX7IuzDYv6ZLvAbW7oJPh2kRbm50 Гр. 1 - Елена], [https://www.youtube.com/watch?v=mXM9FrQcZSk&list=PLmA-1xX7IuzDYv6ZLvAbW7oJPh2kRbm50 Гр.2 - Настя]] || | ||
− | '' | + | ''Линейная регрессия. Продолжение'' |
− | + | ||
− | + | ||
|| 19.11.22 || | || 19.11.22 || | ||
|| | || | ||
|- | |- | ||
− | | style="background:#eaecf0;" | '''3''', [[ Запись]] || | + | | style="background:#eaecf0;" | '''3''', [[https://www.youtube.com/watch?v=Uzj2sGvyF7Y&list=PLmA-1xX7IuzDYv6ZLvAbW7oJPh2kRbm50 Запись]] || |
− | ''Линейные методы классификации - | + | ''Линейные методы классификации - 1:'' |
− | + | Логистическая регрессия, калибровка вероятностей. kNN | |
|| 25.11.22 || | || 25.11.22 || | ||
+ | [https://youtu.be/hM64I2xcirM?list=PLEwK9wdS5g0qi14fXKFnFzruUDg3nl6db&t=545 Лекция] про классификацию; [https://github.com/Murcha1990/MLDS_ML_2022/blob/main/%D0%97%D0%B0%D0%BD%D1%8F%D1%82%D0%B8%D0%B5%203/LogReg.ipynb ноутбук] для самопроверки | ||
+ | Stepik: [https://stepik.org/lesson/806516/step/1?unit=809692 кросс-валидация, параметры и гиперпараметры], [https://stepik.org/lesson/806466/step/1?unit=809642 связь ML-метрик с бизнесом] | ||
|| | || | ||
|- | |- | ||
− | | style="background:#eaecf0;" | '''4''', [[ Запись]] || | + | | style="background:#eaecf0;" | '''4''', [[https://www.youtube.com/watch?v=BsoVGjTS9u0&list=PLmA-1xX7IuzDYv6ZLvAbW7oJPh2kRbm50 Запись]] || |
− | '' | + | ''Линейные методы классификации - 2:'' |
− | + | SVM, SVM-kernels. Метрики качества классификации. Счётчики. | |
− | || 02.12.22 || | + | || 02.12.22 || |
+ | [https://www.youtube.com/watch?v=dznJjpgJk1M&list=PLEwK9wdS5g0qi14fXKFnFzruUDg3nl6db Лекция] про SVM и метрики классификации | ||
− | || | + | [https://docs.google.com/forms/d/e/1FAIpQLSdBt3vazDPEO89GiTwA_bTN43KCgG3waTOij7-MSQnuchwx1w/viewform?usp=sf_link Неоцениваемый тест] |
+ | || [https://colab.research.google.com/drive/1FShhecmXa3auinR3vugPGQAzE8CN2eaX?usp=sharing Ноутбук] с семинара | ||
|- | |- | ||
− | | style="background:#eaecf0;" | '''5''', [[ | + | | style="background:#eaecf0;" | '''5''', [[https://www.youtube.com/watch?v=Nx2dJFV8PiI&list=PLmA-1xX7IuzDYv6ZLvAbW7oJPh2kRbm50 Запись]] || |
− | + | ||
− | + | ||
− | + | ||
− | + | ||
− | + | ||
− | + | ||
− | + | ||
− | + | ||
''Снижение размерности данных:'' | ''Снижение размерности данных:'' | ||
Методы отбора признаков, расширения SVD, MDS, t-SNE | Методы отбора признаков, расширения SVD, MDS, t-SNE | ||
− | || | + | || 07.12.22 || |
− | + | [https://www.youtube.com/watch?v=Amm-LR9OkL0&list=PLEwK9wdS5g0qi14fXKFnFzruUDg3nl6db Лекция] | |
|| | || | ||
|- | |- | ||
− | | style="background:#eaecf0;" | ''' | + | | style="background:#eaecf0;" | '''6''', [[https://www.youtube.com/watch?v=0knaj1xIBVs&list=PLmA-1xX7IuzDYv6ZLvAbW7oJPh2kRbm50 Гр.1 (Елена)], [https://www.youtube.com/watch?v=IVy-U6vEYlI&list=PLmA-1xX7IuzDYv6ZLvAbW7oJPh2kRbm50 Гр.2 (Настя)]] || |
''Решающие деревья и их композиции:'' | ''Решающие деревья и их композиции:'' | ||
Алгоритм построения дерева, критерии информативности (регрессия и классификация), обработка пропусков для деревьев, стрижка и регуляризация | Алгоритм построения дерева, критерии информативности (регрессия и классификация), обработка пропусков для деревьев, стрижка и регуляризация | ||
− | || | + | || 09.12.22 || |
+ | [https://www.youtube.com/watch?v=vyIdAjcOFrE&list=PLEwK9wdS5g0qi14fXKFnFzruUDg3nl6db Лекция] (с 25-й минуты), [https://github.com/esokolov/ml-course-hse/blob/master/2021-fall/lecture-notes/lecture08-trees.pdf Конспект] Евгения Соколова | ||
+ | [https://docs.google.com/forms/d/e/1FAIpQLSd-hpKFIVuhd4YKcvf76QwZil9mlVMfBf6wqEqRcaG1xTCoMw/viewform?usp=sf_link Неоцениваемый тест] по деревьям и AUC-ROC | ||
|| | || | ||
|- | |- | ||
− | | style="background:#eaecf0;" | ''' | + | | style="background:#eaecf0;" | '''7''', [[https://www.youtube.com/watch?v=BUCOJCb7a9Q&list=PLmA-1xX7IuzDYv6ZLvAbW7oJPh2kRbm50 Запись]] || |
''Решающие деревья и их композиции - 2:'' | ''Решающие деревья и их композиции - 2:'' | ||
Разложение ошибки на шум, смещение и разброс; бэггинг; случайный лес | Разложение ошибки на шум, смещение и разброс; бэггинг; случайный лес | ||
− | || | + | || 16.12.22 || |
+ | [https://habr.com/ru/company/ods/blog/323890/ Параграф "Разложение ошибки на смещение и разброс"] | ||
+ | [https://stepik.org/course/125501/syllabus Уроки 6.4, 6.5 на Stepik] | ||
+ | |||
+ | [https://www.youtube.com/watch?v=X4arg_OLxUk&list=PLEwK9wdS5g0qi14fXKFnFzruUDg3nl6db Лекция] про разложение ошибки и случайный лес, [https://github.com/esokolov/ml-course-hse/blob/master/2021-fall/lecture-notes/lecture09-ensembles.pdf Конспект] к ней | ||
|| | || | ||
|- | |- | ||
− | | style="background:#eaecf0;" | ''' | + | | style="background:#eaecf0;" | '''8''', [[https://www.youtube.com/watch?v=KDxPNMjZHas&list=PLmA-1xX7IuzDYv6ZLvAbW7oJPh2kRbm50 Запись]] || |
''Решающие деревья и их композиции - 3:'' | ''Решающие деревья и их композиции - 3:'' | ||
Бустинг, градиентный бустинг над решающими деревьями, различные интерпретации GB; прочие подходы к ансамблированию | Бустинг, градиентный бустинг над решающими деревьями, различные интерпретации GB; прочие подходы к ансамблированию | ||
− | || | + | || 19.12.22 || |
− | + | [https://www.youtube.com/watch?v=i7i70FkWUL8&list=PLEwK9wdS5g0qi14fXKFnFzruUDg3nl6db&index=36#t=12m01s Лекция], [https://github.com/esokolov/ml-course-hse/blob/master/2021-fall/lecture-notes/lecture10-ensembles.pdf Конспект] про градиентный бустинг, [https://github.com/esokolov/ml-course-hse/blob/master/2021-fall/lecture-notes/lecture11-ensembles.pdf Текст] про его модификации | |
|| | || | ||
|- | |- | ||
Строка 154: | Строка 154: | ||
=== Записи консультаций === | === Записи консультаций === | ||
+ | 1. [https://www.youtube.com/watch?v=timkOT1gRA0&list=PLmA-1xX7IuzDYv6ZLvAbW7oJPh2kRbm50 Консультация] к соревнованию First Step in NLP Bootcamp (05.12.22) [[https://sticky-impulse-1a9.notion.site/027d5b67a9574924b730eaadce3f8755 Notion-страница с советами]] | ||
+ | |||
+ | 2. [https://www.youtube.com/watch?v=kLHpFZ5wHoo&list=PLmA-1xX7IuzDYv6ZLvAbW7oJPh2kRbm50 Консультация] к коллоквиуму (27.12.22) | ||
==Формула оценивания== | ==Формула оценивания== |
Версия 10:22, 9 января 2023
Содержание
О курсе
Занятия проводятся в Zoom по пятницам в 18:00
Контакты
Канал курса в TG: [channel link]
Чат курса в TG: [chat link]
Преподаватели: Кантонистова Елена Олеговна, Максимовская Анастасия Максимовна
Ассистент | Контакты |
---|---|
Савелий | @Savely_Prokhorov |
Материалы курса
Ссылка на плейлист курса на YouTube: YouTube-playlist
Ссылка на GitHub с материалами курса: [GitHub repository]
В плане курса (ниже) возможны изменения: как количественные (число занятий), так и качественные (их содержание).
Занятие | Тема | Дата | Материалы для самоподготовки к семинарам | Дополнительные материалы |
---|---|---|---|---|
1, [Запись] |
[Материалы] Линейные методы регрессии: Нормализация данных, feature engineering, метрики качества регрессии. Методы оценивания обобщающей способности моделей, кросс-валидация |
11.11.22 |
Вводная в ML лекция и презентация к ней Урок "Введение в МО. Схема проекта по МО" на Stepik |
|
2, [Гр. 1 - Елена, Гр.2 - Настя] |
Линейная регрессия. Продолжение |
19.11.22 | ||
3, [Запись] |
Линейные методы классификации - 1: Логистическая регрессия, калибровка вероятностей. kNN |
25.11.22 |
Лекция про классификацию; ноутбук для самопроверки Stepik: кросс-валидация, параметры и гиперпараметры, связь ML-метрик с бизнесом |
|
4, [Запись] |
Линейные методы классификации - 2: SVM, SVM-kernels. Метрики качества классификации. Счётчики. |
02.12.22 |
Лекция про SVM и метрики классификации |
Ноутбук с семинара |
5, [Запись] |
Снижение размерности данных: Методы отбора признаков, расширения SVD, MDS, t-SNE |
07.12.22 | ||
6, [Гр.1 (Елена), Гр.2 (Настя)] |
Решающие деревья и их композиции: Алгоритм построения дерева, критерии информативности (регрессия и классификация), обработка пропусков для деревьев, стрижка и регуляризация |
09.12.22 |
Лекция (с 25-й минуты), Конспект Евгения Соколова Неоцениваемый тест по деревьям и AUC-ROC |
|
7, [Запись] |
Решающие деревья и их композиции - 2: Разложение ошибки на шум, смещение и разброс; бэггинг; случайный лес |
16.12.22 |
Параграф "Разложение ошибки на смещение и разброс" Лекция про разложение ошибки и случайный лес, Конспект к ней |
|
8, [Запись] |
Решающие деревья и их композиции - 3: Бустинг, градиентный бустинг над решающими деревьями, различные интерпретации GB; прочие подходы к ансамблированию |
19.12.22 |
Лекция, Конспект про градиентный бустинг, Текст про его модификации |
|
10, Запись |
Интерпретируемость ML-моделей: SHAP-values, LIME |
|||
11, Запись |
AutoML: Подбор гиперпараметров (optunа), фреймворки (H2O, TPOT, auto-sklearn и MLBox) |
|||
12, Запись |
Прогнозирование временных рядов: Особенности работы со временными рядами (сэмплинг), характеристики временных рядов (стационарность, сезонность, автокорреляция), библиотеки для прогнозирования TS (prophet) |
|||
13, Запись |
Кластеризация: K-means, (H)DBSCAN, метрики качества (внутренние и внешние) |
|||
14, Запись |
Кластеризация - 2: Иерархическая кластеризация, подходы к графовой кластеризации |
|||
15, Запись |
Рекомендательные системы и ранжирование: Ранжирование, метрики качества ранжирования (попарные, поточечные, списковые) |
|||
16, Запись |
Рекомендательные системы и ранжирование - 2: Переход от ранжирования к рекомендациям, метрики качества рекомендаций. Коллаборативная фильтрация, матричные разложения и факторизационные машины |
|||
17, Запись | ||||
18, Запись |
Записи консультаций
1. Консультация к соревнованию First Step in NLP Bootcamp (05.12.22) [Notion-страница с советами]
2. Консультация к коллоквиуму (27.12.22)
Формула оценивания
Оценка = 0 * ОТренировочные тесты + 0.075 * ОПромежуточные тесты + 0.075 * О Взаимопроверка + 0.1 * ОКоллоквиум + 0.15 * ОЭкзамен + 0.6 * ОДЗ
Автоматы: Если накопленная оценка больше или равна 8, то она по желанию студента ставится в качестве итоговой оценки. Для получения автомата также необходимо получить за коллоквиум не менее 6 баллов.
P.S. Под накопленной оценкой до экзамена понимаем Накоп_до_экза = Оценка / 0.85
Домашние задания
- LinReg + OOP
- LinearClassification + SQL
- Сравнение деревянных моделей + inference
- Снижение размерности и визуализация
- Кластеризация
- Большая практическая работа // Kaggle // работа с текстами средствами ML-моделей (?) // RecSys (ML)
Литература
- Hastie T., Tibshirani R, Friedman J. The Elements of Statistical Learning (2nd edition). Springer, 2009
- Bishop C. M. Pattern Recognition and Machine Learning. Springer, 2006.
- Willi Richert, Luis Pedro Coelho. Building Machine Learning Systems with Python. Packt Publishing, 2013.