МОВС MLOps Начало (2024-25, 1 модуль) — различия между версиями

Материал из Wiki - Факультет компьютерных наук
Перейти к: навигация, поиск
Строка 72: Строка 72:
 
*  отбора признаков не происходит
 
*  отбора признаков не происходит
 
*  и все требуемые шаги из описания выше выполнены
 
*  и все требуемые шаги из описания выше выполнены
 
 
== Литература ==
 

Версия 13:32, 12 сентября 2024

О курсе

Курс читается для студентов 2 курса магистратуры "Искусственный интеллект" в 1 модуле 2024/2025 учебного года.

Вы познакомитесь с концепцией MLOps, поймете, как именно Data Scientist использует автоматизацию в своих решениях, а также попробуете самостоятельно создать пайплайн обучения ML-модели с помощью AirFlow и версионировать свои эксперименты с помощью MLFlow. Ближе к концу участников интенсива ждет мини-проект по обучению ML-модели по расписанию. Цель этого курса - научиться поднимать необходимое окружение для автоматизации ML-экспериментов и грамотно версионировать свои результаты.

Контакты

Чат курса в TG: https://t.me/+b_3MbJqsLYoxMWVi

Преподаватель: Елизавета Гаврилова https://t.me/lizvladii @lizvladii

Ассистент Telegram
Милана Кучумова @ milana_kma
Мария Харченко @mister_autocrat

Материалы курса (начальная группа)

Ссылка на степик с материалами курса: https://stepik.org/course/181476/

Занятие Тема Дата Ссылки
1 (Вебинар) Введение 10.09 Файлы недели здесь, Материалы по установке docker здесь
2 (Вебинар) AirFlow Часть 1 01.10 (возможна замена) Файлы недели здесь
3 AirFlow Часть 2 -- Файлы недели здесь
4 (Вебинар) MLFlow 15.10 Файлы недели здесь
5 Проект --


Формула оценивания

Оценка = 0.4 * (ОДЗ1 + ОДЗ2 ) + 0.6 * ОПроект

Домашние задания

Домашнее задание 1 - 20%: Написать DAG обучения модели со сбором метрик. Пайплайн должен состоять из следующих шагов: инициализация. В качестве метрик собираем название модели и время запуска. загрузка данных (любые данные с загрузкой из интернета, без БД). В качестве метрик собираем начало и конец загрузки по времени, размеры датасета. обработка данных (соответствующая решаемой задаче). В качестве метрик собираем время работы шага, размеры обработанного датасета. обучение модели. В качестве метрик собираем время обучения модели и метрики модели. сохранение результатов на S3. Выгружаем все собранные за пайплайн метрики на S3.

Домашнее задание 2 - 20%: Обучить 3 модели в Jupyter и залогировать эксперимент с помощью MLFlow. реализовать обучение 3 любых моделей в Jupyter, состоящее из шагов: чтение данных (любые из интернета), предобработка данных, обучение моделей, сохранение результатов. необходимо создать новый эксперимент в MLFLow (подсказка: а что если эксперимент уже есть?) обучать модели необходимо в рамках одно parent run. Один сhild run - это одна модель. собирать метрики необходимо с помощью MLFlow!

Проект - это совмещение ДЗ 1 и 2 - 60%. Необходимо обучить 3 модели в рамках одного DAG, и залогировать эти обучения с помощью MLFlow.

Минимальные требования к проекту:

  • используется датасет из sklearn
  • используются лог/лин рег + дерево решений + случайный лес
  • предобработка - это стандартизация
  • отбора признаков не происходит
  • и все требуемые шаги из описания выше выполнены