МОВС MLOps Начало (2024-25, 1 модуль) — различия между версиями

Текущая версия на 06:44, 9 октября 2024

Содержание

1 О курсе
2 Контакты
3 Материалы курса (начальная группа)
4 Формула оценивания
5 Домашние задания

О курсе

Курс читается для студентов 2 курса магистратуры "Искусственный интеллект" в 1 модуле 2024/2025 учебного года.

Вы познакомитесь с концепцией MLOps, поймете, как именно Data Scientist использует автоматизацию в своих решениях, а также попробуете самостоятельно создать пайплайн обучения ML-модели с помощью AirFlow и версионировать свои эксперименты с помощью MLFlow. Ближе к концу участников интенсива ждет мини-проект по обучению ML-модели по расписанию. Цель этого курса - научиться поднимать необходимое окружение для автоматизации ML-экспериментов и грамотно версионировать свои результаты.

Контакты

Чат курса в TG: https://t.me/+b_3MbJqsLYoxMWVi

Преподаватель: Елизавета Гаврилова https://t.me/lizvladii @lizvladii

Ассистент	Telegram
Милана Кучумова	@ milana_kma
Мария Харченко	@mister_autocrat

Материалы курса (начальная группа)

Ссылка на степик с материалами курса: https://stepik.org/course/181476/

Занятие	Тема	Дата	Ссылки
1 (Вебинар 1)	Введение	10.09	Файлы недели здесь, Материалы по установке docker здесь
2 (Вебинар 1)	AirFlow Часть 1	16.09	Файлы недели здесь
3 (Вебинар 2)	AirFlow Часть 2	23.09	Файлы недели здесь
4 (Вебинары 2,3)	MLFlow	01.10	Файлы недели здесь
5 (Вебинар 3)	Проект	15.10	Описание

Формула оценивания

Оценка = 0.4 * (О_ДЗ1 + О_ДЗ2 ) + 0.6 * О_Проект

Домашние задания

>>Подробные описания домашних заданий и сроков сдачи на степике<<

Домашнее задание 1 - 20%: Написать 3 DAGа обучения разных моделей со сбором метрик в рамках одного файла. Пайплайн должен состоять из следующих шагов: инициализация. В качестве метрик собираем название модели и время запуска. загрузка данных (любые данные с загрузкой из интернета, без БД). В качестве метрик собираем начало и конец загрузки по времени, размеры датасета. обработка данных (соответствующая решаемой задаче). В качестве метрик собираем время работы шага, размеры обработанного датасета. обучение модели. В качестве метрик собираем время обучения модели и метрики модели. сохранение результатов на S3. Выгружаем все собранные за пайплайн метрики на S3.

Домашнее задание 2 - 20%: Обучить 3 модели в Python и залогировать эксперимент с помощью MLFlow. реализовать обучение 3 любых моделей в Python, состоящее из шагов: чтение данных (любые из интернета), предобработка данных, обучение моделей, сохранение результатов. необходимо создать новый эксперимент в MLFLow (подсказка: а что если эксперимент уже есть?) обучать модели необходимо в рамках одно parent run. Один сhild run - это одна модель. собирать метрики необходимо с помощью MLFlow!

Проект - это совмещение ДЗ 1 и 2 - 60%. Необходимо обучить 3 модели в рамках одного DAG, и залогировать эти обучения с помощью MLFlow. Подробное описание проекта здесь.

Минимальные требования к проекту:

используется датасет из sklearn
используются лог/лин рег + дерево решений + случайный лес
предобработка - это стандартизация
отбора признаков не происходит
и все требуемые шаги из описания выше выполнены

@@ Строка 1: / Строка 1: @@
-...
+==О курсе==
+Курс читается для студентов 2 курса магистратуры "Искусственный интеллект" в 1 модуле 2024/2025 учебного года.
+Вы познакомитесь с концепцией MLOps, поймете, как именно Data Scientist использует автоматизацию в своих решениях, а также попробуете самостоятельно создать пайплайн обучения ML-модели с помощью AirFlow и версионировать свои эксперименты с помощью MLFlow. Ближе к концу участников интенсива ждет мини-проект по обучению ML-модели по расписанию.
+Цель этого курса - научиться поднимать необходимое окружение для автоматизации ML-экспериментов и грамотно версионировать свои результаты.
+==Контакты==
+Чат курса в TG: https://t.me/+b_3MbJqsLYoxMWVi
+Преподаватель: Елизавета Гаврилова https://t.me/lizvladii @lizvladii
+{| class="wikitable"
+|-
+! Ассистент !! Telegram
+|-
+| style="background:#eaecf0;" | Милана Кучумова || [https://t.me/milana_kma @ milana_kma ]
+|-
+| style="background:#eaecf0;" | Мария Харченко || [https://t.me/mister_autocrat @mister_autocrat]
+|-
+|}
+==Материалы курса (начальная группа)==
+Ссылка на степик с материалами курса: https://stepik.org/course/181476/
+{| class="wikitable"
+|-
+! Занятие !! Тема !! Дата !! Ссылки
+|-
+| style="background:#eaecf0;" | '''1 (Вебинар 1)'''  ||  Введение
+ || 10.09 || [https://stepik.org/lesson/1410492/step/2?unit=1428000 Файлы недели здесь], [https://stepik.org/lesson/1410492/step/9?unit=1428000 Материалы по установке docker здесь]
+|-
+| style="background:#eaecf0;" | '''2 (Вебинар 1)'''  ||  AirFlow Часть 1
+ || 16.09 || [https://stepik.org/lesson/1410493/step/2?unit=1428001 Файлы недели здесь]
+|-
+| style="background:#eaecf0;" | '''3 (Вебинар 2)'''  ||  AirFlow Часть 2
+ ||23.09 || [https://stepik.org/lesson/1410494/step/2?unit=1428002 Файлы недели здесь]
+|-
+| style="background:#eaecf0;" | '''4 (Вебинары 2,3)''' ||   MLFlow
+ || 01.10 || [https://stepik.org/lesson/1410495/step/2?unit=1428003 Файлы недели здесь]
+|-
+| style="background:#eaecf0;" | '''5 (Вебинар 3)'''  ||   Проект
+ || 15.10 || [https://stepik.org/lesson/1435619/step/4?unit=1454131 Описание]
+|}
+==Формула оценивания==
+Оценка = 0.4 * (О<sub>ДЗ1</sub> + О<sub>ДЗ2</sub> )  + 0.6 * О<sub>Проект</sub>
+== Домашние задания ==
+[https://stepik.org/lesson/1435619/step/1?unit=1454131 >>Подробные описания домашних заданий и сроков сдачи на степике<<]
+Домашнее задание 1 - 20%: Написать 3 DAGа обучения разных моделей со сбором метрик в рамках одного файла. Пайплайн должен состоять из следующих шагов:
+инициализация. В качестве метрик собираем название модели и время запуска.
+загрузка данных (любые данные с загрузкой из интернета, без БД). В качестве метрик собираем начало и конец загрузки по времени, размеры датасета.
+обработка данных (соответствующая решаемой задаче). В качестве метрик собираем время работы шага, размеры обработанного датасета.
+обучение модели. В качестве метрик собираем время обучения модели и метрики модели.
+сохранение результатов на S3. Выгружаем все собранные за пайплайн метрики на S3.
+Домашнее задание 2 - 20%: Обучить 3 модели в Python и залогировать эксперимент с помощью MLFlow.
+реализовать обучение 3 любых моделей в Python, состоящее из шагов: чтение данных (любые из интернета), предобработка данных, обучение моделей, сохранение результатов.
+необходимо создать новый эксперимент в MLFLow (подсказка: а что если эксперимент уже есть?)
+обучать модели необходимо в рамках одно parent run. Один сhild run - это одна модель.
+собирать метрики необходимо с помощью MLFlow!
+Проект - это совмещение ДЗ 1 и 2 - 60%. Необходимо обучить 3 модели в рамках одного DAG, и залогировать эти обучения с помощью MLFlow.  Подробное описание проекта [https://stepik.org/lesson/1435619/step/4?unit=1454131 здесь].
+Минимальные требования к проекту:
+* используется датасет из sklearn
+*  используются лог/лин рег + дерево решений + случайный лес
+*  предобработка - это стандартизация
+*  отбора признаков не происходит
+*  и все требуемые шаги из описания выше выполнены

МОВС MLOps Начало (2024-25, 1 модуль) — различия между версиями

Текущая версия на 06:44, 9 октября 2024

Содержание

О курсе

Контакты

Материалы курса (начальная группа)

Формула оценивания

Домашние задания

Навигация

Персональные инструменты

Пространства имён

Варианты

Просмотры

Действия

Поиск

Навигация

Инструменты