МОВС MLOps Начало (2024-25, 1 модуль) — различия между версиями
Murrcha (обсуждение | вклад) (Новая страница: «...») |
|||
| (не показаны 3 промежуточные версии этого же участника) | |||
| Строка 1: | Строка 1: | ||
| − | ... | + | ==О курсе== |
| + | |||
| + | Курс читается для студентов 2 курса магистратуры "Искусственный интеллект" в 1 модуле 2024/2025 учебного года. | ||
| + | |||
| + | Вы познакомитесь с концепцией MLOps, поймете, как именно Data Scientist использует автоматизацию в своих решениях, а также попробуете самостоятельно создать пайплайн обучения ML-модели с помощью AirFlow и версионировать свои эксперименты с помощью MLFlow. Ближе к концу участников интенсива ждет мини-проект по обучению ML-модели по расписанию. | ||
| + | Цель этого курса - научиться поднимать необходимое окружение для автоматизации ML-экспериментов и грамотно версионировать свои результаты. | ||
| + | |||
| + | ==Контакты== | ||
| + | |||
| + | Чат курса в TG: https://t.me/+b_3MbJqsLYoxMWVi | ||
| + | |||
| + | Преподаватель: Елизавета Гаврилова https://t.me/lizvladii @lizvladii | ||
| + | |||
| + | {| class="wikitable" | ||
| + | |- | ||
| + | ! Ассистент !! Telegram | ||
| + | |- | ||
| + | | style="background:#eaecf0;" | Милана Кучумова || [https://t.me/milana_kma @ milana_kma ] | ||
| + | |- | ||
| + | | style="background:#eaecf0;" | Мария Харченко || [https://t.me/mister_autocrat @mister_autocrat] | ||
| + | |- | ||
| + | |} | ||
| + | |||
| + | ==Материалы курса (начальная группа)== | ||
| + | Ссылка на степик с материалами курса: https://stepik.org/course/181476/ | ||
| + | |||
| + | {| class="wikitable" | ||
| + | |- | ||
| + | ! Занятие !! Тема !! Дата !! Ссылки | ||
| + | |- | ||
| + | | style="background:#eaecf0;" | '''1 (Вебинар 1)''' || Введение | ||
| + | || 10.09 || [https://stepik.org/lesson/1410492/step/2?unit=1428000 Файлы недели здесь], [https://stepik.org/lesson/1410492/step/9?unit=1428000 Материалы по установке docker здесь] | ||
| + | |- | ||
| + | | style="background:#eaecf0;" | '''2 (Вебинар 1)''' || AirFlow Часть 1 | ||
| + | || 16.09 || [https://stepik.org/lesson/1410493/step/2?unit=1428001 Файлы недели здесь] | ||
| + | |- | ||
| + | | style="background:#eaecf0;" | '''3 (Вебинар 2)''' || AirFlow Часть 2 | ||
| + | ||23.09 || [https://stepik.org/lesson/1410494/step/2?unit=1428002 Файлы недели здесь] | ||
| + | |- | ||
| + | | style="background:#eaecf0;" | '''4 (Вебинары 2,3)''' || MLFlow | ||
| + | || 01.10 || [https://stepik.org/lesson/1410495/step/2?unit=1428003 Файлы недели здесь] | ||
| + | |- | ||
| + | | style="background:#eaecf0;" | '''5 (Вебинар 3)''' || Проект | ||
| + | || 15.10 || [https://stepik.org/lesson/1435619/step/4?unit=1454131 Описание] | ||
| + | |} | ||
| + | |||
| + | |||
| + | ==Формула оценивания== | ||
| + | |||
| + | Оценка = 0.4 * (О<sub>ДЗ1</sub> + О<sub>ДЗ2</sub> ) + 0.6 * О<sub>Проект</sub> | ||
| + | |||
| + | == Домашние задания == | ||
| + | [https://stepik.org/lesson/1435619/step/1?unit=1454131 >>Подробные описания домашних заданий и сроков сдачи на степике<<] | ||
| + | |||
| + | Домашнее задание 1 - 20%: Написать 3 DAGа обучения разных моделей со сбором метрик в рамках одного файла. Пайплайн должен состоять из следующих шагов: | ||
| + | инициализация. В качестве метрик собираем название модели и время запуска. | ||
| + | загрузка данных (любые данные с загрузкой из интернета, без БД). В качестве метрик собираем начало и конец загрузки по времени, размеры датасета. | ||
| + | обработка данных (соответствующая решаемой задаче). В качестве метрик собираем время работы шага, размеры обработанного датасета. | ||
| + | обучение модели. В качестве метрик собираем время обучения модели и метрики модели. | ||
| + | сохранение результатов на S3. Выгружаем все собранные за пайплайн метрики на S3. | ||
| + | |||
| + | Домашнее задание 2 - 20%: Обучить 3 модели в Python и залогировать эксперимент с помощью MLFlow. | ||
| + | реализовать обучение 3 любых моделей в Python, состоящее из шагов: чтение данных (любые из интернета), предобработка данных, обучение моделей, сохранение результатов. | ||
| + | необходимо создать новый эксперимент в MLFLow (подсказка: а что если эксперимент уже есть?) | ||
| + | обучать модели необходимо в рамках одно parent run. Один сhild run - это одна модель. | ||
| + | собирать метрики необходимо с помощью MLFlow! | ||
| + | |||
| + | Проект - это совмещение ДЗ 1 и 2 - 60%. Необходимо обучить 3 модели в рамках одного DAG, и залогировать эти обучения с помощью MLFlow. Подробное описание проекта [https://stepik.org/lesson/1435619/step/4?unit=1454131 здесь]. | ||
| + | |||
| + | Минимальные требования к проекту: | ||
| + | * используется датасет из sklearn | ||
| + | * используются лог/лин рег + дерево решений + случайный лес | ||
| + | * предобработка - это стандартизация | ||
| + | * отбора признаков не происходит | ||
| + | * и все требуемые шаги из описания выше выполнены | ||
Текущая версия на 06:44, 9 октября 2024
Содержание
О курсе
Курс читается для студентов 2 курса магистратуры "Искусственный интеллект" в 1 модуле 2024/2025 учебного года.
Вы познакомитесь с концепцией MLOps, поймете, как именно Data Scientist использует автоматизацию в своих решениях, а также попробуете самостоятельно создать пайплайн обучения ML-модели с помощью AirFlow и версионировать свои эксперименты с помощью MLFlow. Ближе к концу участников интенсива ждет мини-проект по обучению ML-модели по расписанию. Цель этого курса - научиться поднимать необходимое окружение для автоматизации ML-экспериментов и грамотно версионировать свои результаты.
Контакты
Чат курса в TG: https://t.me/+b_3MbJqsLYoxMWVi
Преподаватель: Елизавета Гаврилова https://t.me/lizvladii @lizvladii
| Ассистент | Telegram |
|---|---|
| Милана Кучумова | @ milana_kma |
| Мария Харченко | @mister_autocrat |
Материалы курса (начальная группа)
Ссылка на степик с материалами курса: https://stepik.org/course/181476/
| Занятие | Тема | Дата | Ссылки |
|---|---|---|---|
| 1 (Вебинар 1) | Введение | 10.09 | Файлы недели здесь, Материалы по установке docker здесь |
| 2 (Вебинар 1) | AirFlow Часть 1 | 16.09 | Файлы недели здесь |
| 3 (Вебинар 2) | AirFlow Часть 2 | 23.09 | Файлы недели здесь |
| 4 (Вебинары 2,3) | MLFlow | 01.10 | Файлы недели здесь |
| 5 (Вебинар 3) | Проект | 15.10 | Описание |
Формула оценивания
Оценка = 0.4 * (ОДЗ1 + ОДЗ2 ) + 0.6 * ОПроект
Домашние задания
>>Подробные описания домашних заданий и сроков сдачи на степике<<
Домашнее задание 1 - 20%: Написать 3 DAGа обучения разных моделей со сбором метрик в рамках одного файла. Пайплайн должен состоять из следующих шагов: инициализация. В качестве метрик собираем название модели и время запуска. загрузка данных (любые данные с загрузкой из интернета, без БД). В качестве метрик собираем начало и конец загрузки по времени, размеры датасета. обработка данных (соответствующая решаемой задаче). В качестве метрик собираем время работы шага, размеры обработанного датасета. обучение модели. В качестве метрик собираем время обучения модели и метрики модели. сохранение результатов на S3. Выгружаем все собранные за пайплайн метрики на S3.
Домашнее задание 2 - 20%: Обучить 3 модели в Python и залогировать эксперимент с помощью MLFlow. реализовать обучение 3 любых моделей в Python, состоящее из шагов: чтение данных (любые из интернета), предобработка данных, обучение моделей, сохранение результатов. необходимо создать новый эксперимент в MLFLow (подсказка: а что если эксперимент уже есть?) обучать модели необходимо в рамках одно parent run. Один сhild run - это одна модель. собирать метрики необходимо с помощью MLFlow!
Проект - это совмещение ДЗ 1 и 2 - 60%. Необходимо обучить 3 модели в рамках одного DAG, и залогировать эти обучения с помощью MLFlow. Подробное описание проекта здесь.
Минимальные требования к проекту:
- используется датасет из sklearn
- используются лог/лин рег + дерево решений + случайный лес
- предобработка - это стандартизация
- отбора признаков не происходит
- и все требуемые шаги из описания выше выполнены