МОВС Ключевой семинар Машинное обучение, ML (2023-24 уч. год, 2-3 модули) — различия между версиями

Материал из Wiki - Факультет компьютерных наук
Перейти к: навигация, поиск
Строка 72: Строка 72:
 
|| 29.11.23 // 02.12.23 || [ Конспект (базовая)] <br/>[https://github.com/hse-mlds/ml/blob/main/advanced_group/lesson_07/notes.pdf Конспект (продвинутая)] <br/> [https://github.com/hse-mlds/ml/blob/main/advanced_group/lesson_07/trees.ipynb Ноутбук (продвинутая)]
 
|| 29.11.23 // 02.12.23 || [ Конспект (базовая)] <br/>[https://github.com/hse-mlds/ml/blob/main/advanced_group/lesson_07/notes.pdf Конспект (продвинутая)] <br/> [https://github.com/hse-mlds/ml/blob/main/advanced_group/lesson_07/trees.ipynb Ноутбук (продвинутая)]
 
|-
 
|-
| style="background:#eaecf0;" | '''8''', [https://www.youtube.com/watch?v=wvOUmG5HZ24&list=PLmA-1xX7IuzCglOyTkTZ_bBHKd8eUr8pC&index=14  Запись (базовая)] <br/> [https://www.youtube.com/watch?v=uPTRdqaOO3w&list=PLmA-1xX7IuzCglOyTkTZ_bBHKd8eUr8pC&index=15&pp=iAQBЗапись (продвинутая)]  ||  
+
| style="background:#eaecf0;" | '''8''', [https://www.youtube.com/watch?v=wvOUmG5HZ24&list=PLmA-1xX7IuzCglOyTkTZ_bBHKd8eUr8pC&index=14  Запись (базовая)] <br/> [https://www.youtube.com/watch?v=uPTRdqaOO3w&list=PLmA-1xX7IuzCglOyTkTZ_bBHKd8eUr8pC&index=15&pp=iAQB Запись (продвинутая)]  ||  
 
Разложение ошибки на шум, смещение и разброс; бэггинг; случайный лес
 
Разложение ошибки на шум, смещение и разброс; бэггинг; случайный лес
 
|| 06.12.23 // 09.12.23|| [https://github.com/hse-mlds/ml/blob/main/advanced_group/lesson_08/notes.pdf Конспект (продвинутая)]  
 
|| 06.12.23 // 09.12.23|| [https://github.com/hse-mlds/ml/blob/main/advanced_group/lesson_08/notes.pdf Конспект (продвинутая)]  
 
|-
 
|-
| style="background:#eaecf0;" | ''9''', [[ Запись]] ||  
+
| style="background:#eaecf0;" | '''9''', [https://www.youtube.com/watch?v=VMGJ2dxcL6U&list=PLmA-1xX7IuzCglOyTkTZ_bBHKd8eUr8pC&index=16&pp=iAQB Запись (базовая)] <br/> [https://www.youtube.com/watch?v=EYtGxfvqkgw&list=PLmA-1xX7IuzCglOyTkTZ_bBHKd8eUr8pC&index=17&pp=iAQB Консультация (базовая)]  <br/> [https://www.youtube.com/watch?v=WY_hB4XBAjs&list=PLmA-1xX7IuzCglOyTkTZ_bBHKd8eUr8pC&index=18&pp=iAQB Запись (продвинутая)] ||  
 
Бустинг, градиентный бустинг над решающими деревьями, различные интерпретации GB;<br/> Прочие подходы к ансамблированию  
 
Бустинг, градиентный бустинг над решающими деревьями, различные интерпретации GB;<br/> Прочие подходы к ансамблированию  
|| 13.12.23 // 16.12.23|| [https://github.com/hse-mlds/ml/blob/main/advanced_group/lesson_09/notes.pdf Конспект (продвинутая)] [https://github.com/hse-mlds/ml/blob/main/advanced_group/lesson_09/sem09-gbm-part2.ipynb Ноутбук (продвинутая)]
+
|| 13.12.23 // 16.12.23|| [https://github.com/hse-mlds/ml/blob/main/advanced_group/lesson_09/notes.pdf Конспект (продвинутая)] <br/> [https://github.com/hse-mlds/ml/blob/main/advanced_group/lesson_09/sem09-gbm-part2.ipynb Ноутбук (продвинутая)]
 
|-
 
|-
 
| Конец первого модуля курса |
 
| Конец первого модуля курса |

Версия 13:52, 21 декабря 2023

О курсе

На курсе студенты узнают о классических и современных алгоритмах машинного обучения, научатся подходам для обработки и анализа данных. В курсе большое внимание уделяется линейным и нелинейным моделям регрессии и классификации. Часть курса посвящена обучению без учителя, в частности, методам снижения размерности и кластеризации. В курсе также изучаются такие популярные приложения методов машинного обучения как ранжирование, рекомендательные системы, поиск аномалий и временные ряды.

Занятия проводятся в Zoom:

Базовая группа: Среда, 18.00, Ссылка

Продвинутая группа: Суббота, 13.40, Ссылка

Контакты

Чат курса в TG: https://t.me/+Qvc86ptxVu42OWYy

Преподаватели: Рысьмятова Анастасия, Зехов Матвей

План занятий: Кантонистова Елена Олеговна

Ассистенты

Ассистент Telegram
Юркин Андрей @andreyyur1107
Москаленко Александр @tau_ceti_pn
Вересников Артём @x7mlpvb
Шанарова Надежда @kronesine
Матяш Дарья @bwdare
Бузилов Григорий @GBuzilov

Материалы курса

Плейлист курса на YouTube: https://www.youtube.com/playlist?list=PLmA-1xX7IuzCglOyTkTZ_bBHKd8eUr8pC

GitHub с материалами курса: https://github.com/hse-mlds/ml

Занятие Тема Дата Ссылки
1, Запись (базовая)
Запись (продвинутая)
Базовая: Вводная лекция, линейная регрессия, основные понятия машинного обучения
Продвинутая: Вводные понятия, матричное дифференцирование, явный вывод решения задачи линейной регрессиию
03.11.23 // 11.11.23 Презентация (базовая)
Конспект (продвинутая)
2, Запись (базовая)
Запись (продвинутая)

Базовая: L1/L2 регуляризация, кросс-валидация, метрики качества регрессии
Продвинутая: Градиентный спуск, регуляризация, альтернативные лоссы

08.11.23 // 11.11.23 Конспект (продвинутая) Ноутбук
3,Запись (базовая)
Запись (продвинутая)
Базовая: Градиентный спуск и модификации градиентного спуска
Продвинутая: Кросс-валидация, R^2, вводные понятия классификации
15.11.23 // 18.11.23 Конспект (базовая)
Ноутбук (базовая)
Конспект (продвинутая)
4, Запись (базовая)
Запись (продвинутая)

Базовая: Модификации градиентного спуска
Продвинутая: Вывод SVM и логистической регрессии

15.11.23 // 18.11.23 Конспект (базовая)
Ноутбук (базовая)
Конспект (продвинутая)
5, Запись (базовая)
Запись (базовая, доп)
Запись (продвинутая)
Базовая: Линейная классификация, логистическая регрессия. Доп. занятие: Метрики качества классификации, решение задач.
Продвинутая: Решение задач по линейной регрессии и классификации
22.11.23 // 25.11.23 Конспект (базовая)
Конспект (продвинутая)
6, Запись (базовая)
Запись (базовая, доп)
Запись (продвинутая)
Базовая: Метод опорных векторов. Доп. занятие: Разбор ноутбуков с кодом.
Продвинутая: Многоклассовая классификация, калибровка, решение задач.
22.11.23 // 25.11.23 Конспект (базовая)
Ноутбук 1 (базовая)
Ноутбук 2 (базовая)
Ноутбук 3 (базовая)
Конспект (продвинутая)
Ноутбук (продвинутая)
7, Запись (базовая)
Запись (продвинутая)
Алгоритм построения дерева, критерии информативности (регрессия и классификация),
обработка пропусков для деревьев, стрижка и регуляризация
29.11.23 // 02.12.23 [ Конспект (базовая)]
Конспект (продвинутая)
Ноутбук (продвинутая)
8, Запись (базовая)
Запись (продвинутая)

Разложение ошибки на шум, смещение и разброс; бэггинг; случайный лес

06.12.23 // 09.12.23 Конспект (продвинутая)
9, Запись (базовая)
Консультация (базовая)
Запись (продвинутая)

Бустинг, градиентный бустинг над решающими деревьями, различные интерпретации GB;
Прочие подходы к ансамблированию

13.12.23 // 16.12.23 Конспект (продвинутая)
Ноутбук (продвинутая)
9, Запись Быстрый поиск ближайших соседей, LSH 20.12.23 // 21.12.23
10, Запись Интерпретируемость ML-моделей, SHAP-values, LIME
11, Запись Кластеризация, K-means, (H)DBSCAN, метрики качества (внутренние и внешние)
12, Запись

Иерархическая кластеризация, подходы к графовой кластеризации. Optuna

13, Запись Ранжирование, метрики качества ранжирования (попарные, поточечные, списковые).
Основные подходы к построению рекомендаций
14, Запись

Бустинги и факторизационные машины для рекомендаций

15, Запись Детекция аномалий и дисбаланс классов ...
16, Запись Особенности работы со временными рядами (сэмплинг),
характеристики временных рядов (стационарность, сезонность, автокорреляция),
библиотеки для прогнозирования TS (prophet)

Записи консультаций

Формула оценивания

Оценка = 0 * ОТренировочные тесты + 0.2 * ОStepik + 0.1 * ОКонтрольная + 0.2 * ОЭкзамен + 0.5 * ОДЗ (1)

Автоматы: Если накопленная до экзамена оценка (до округления) больше или равна 7, то она (после округления) по желанию студента ставится в качестве итоговой оценки. Для получения автомата также необходимо получить за контрольную не менее 6 баллов (неокругленных).

Под накопленной оценкой до экзамена понимаем Накоп_до_экзамена = Оценка / 0.8

В случае если накопленная до экзамена оценка (опять же, до округления) < 7 и/или студент получил за коллоквиум во 2-м модуле < 6 баллов, то автомат за экзамен не предусмотрен. Итоговая оценка тогда считается по формуле (1), округляется и ставится в зачетку.

Stepik

Дедлайн прохождения курса: 10 марта 23.59 мск.

Тренировочные тесты

  1. Линейная регрессия: Тест
  2. Метрики классификации Тест
  3. SVM, Калибровочные кривые, многокласовая классификация Тест
  4. Решающие деревья
  5. Композиции
  6. Быстрый kNN, интерпретация моделей
  7. Кластеризация
  8. RecSys
  9. Аномалии и временные ряды

Домашние задания

Инвайты в Anytask: XB8hEr5 (гр.1 -- базовая (А. Рысьмятова));
                                     3jpWkPz (гр.2 -- продвинутая (М. Зехов))

  1. Линейная регрессия: Ноутбук, ‘’’Мягкий дедлайн: 29.11.2023 23.59 МСК, Жёсткий дедлайн: 06.12.2023 23.59 МСК
  2. Линейная классификация и отбор признаков: Ноутбук ‘’’Мягкий дедлайн: 16.12.2023 23.59 МСК, Жёсткий дедлайн: 23.12.2023 23.59 МСК
  3. Решающие деревья. Ансамбли над решающими деревьями
  4. Кластеризация
  5. Аномалии, RecSys

Контрольная

Вопросы для подготовки

Демо-варинат : Скоро

Дата: 22 декабря (ориентировочно)

Резервная дата:

Место: Контрольная пройдёт в зуме. Рассадка по зумам и ссылки появятся незадолго перед контрольной.

Длительность: 80 минут

Содержание: Два теоретических вопроса и три задачи


Правила: Работа выполняется от руки на бумаге. Пишем с одной камерой и включённой демонстрацией экрана (всего экрана, а не конкретного окна). Пользоваться нельзя ничем. Читлистов нет. При зафиксированном факте списывания оценка обнуляется для всех непосредственно причастных.

Экзамен

Информация появится позднее

Литература

  • Hastie T., Tibshirani R, Friedman J. The Elements of Statistical Learning (2nd edition). Springer, 2009
  • Bishop C. M. Pattern Recognition and Machine Learning. Springer, 2006.
  • Willi Richert, Luis Pedro Coelho. Building Machine Learning Systems with Python. Packt Publishing, 2013.
  • Учебник по Машинному обучению: https://academy.yandex.ru/handbook/ml