Сбор и разметка данных для машинного обучения 21/22 — различия между версиями
Polinasmi (обсуждение | вклад) |
Polinasmi (обсуждение | вклад) |
||
Строка 1: | Строка 1: | ||
== О курсе == | == О курсе == | ||
− | Курс по выбору для студентов 3 и 4 курса в 1-2 модулях. | + | Курс по выбору для студентов 3 и 4 курса в 1-2 модулях. Курс ведет несколько сотрудников Яндекса. |
=== Описание === | === Описание === | ||
Строка 11: | Строка 11: | ||
Программа предусматривает проведение лекционных и семинарских занятий, разбор примеров из индустрии и работу над несколькими индивидуальными проектами, основанными на реальных вызовах работы с данными. Помимо проектной работы, предполагается также выполнение и проверка домашних работ по темам лекций и семинаров. Дисциплина относится к вариативной части. | Программа предусматривает проведение лекционных и семинарских занятий, разбор примеров из индустрии и работу над несколькими индивидуальными проектами, основанными на реальных вызовах работы с данными. Помимо проектной работы, предполагается также выполнение и проверка домашних работ по темам лекций и семинаров. Дисциплина относится к вариативной части. | ||
− | === | + | === Элементы контроля === |
− | + | ДЗ1 – работа с платформой для сбора данных (4 балла) | |
− | + | ДЗ2 – контроль качества (5 баллов) | |
− | + | ДЗ3 – проект #1 (20 баллов) | |
− | + | ДЗ4 – агрегация данных (8 баллов) | |
− | + | ДЗ5 – агрегация данных (8 баллов) | |
− | ( | + | ДЗ6 – проект #2 (25 баллов) |
− | + | ДЗ7 – проект #3 (30 баллов) | |
+ | |||
+ | ==== Оценки ==== | ||
− | + | Окончательная оценка: ДЗ1 + ДЗ2 + ДЗ3 + ДЗ4 + ДЗ5 + ДЗ6 + ДЗ7 / 10 | |
+ | Разбалловка: | ||
+ | от 0 до 39 баллов – незачёт | ||
+ | от 39 до 59 – зачёт | ||
+ | от 60 до 79 – хорошо | ||
+ | от 80 до 100 – отлично | ||
− | + | ==== Дедлайны ==== | |
+ | |||
+ | Можно сдать в течение недели после дедлайна с потерей 25% баллов от оценки. После 1 недели теряется уже 50%. | ||
+ | |||
+ | ==== Бюджет на домашки ==== | ||
+ | Чтобы получить аккаунт в Толоке, на который мы будем класть бюджет для каждого ДЗ, нужно написать ФИО + ВУЗ на рассылку shad-accounts@yandex-team.ru | ||
− | |||
=== Полезные ссылки === | === Полезные ссылки === | ||
− | Телеграм-чат курса: | + | Телеграм-чат курса: https://t.me/joinchat/iu3XYk87m8E1YTIy |
+ | |||
+ | @polinsmi – куратор курса, по всем вопросам можно приходить к ней | ||
+ | |||
+ | === Время проведения лекций и семинаров === | ||
+ | |||
+ | Ссылка на регулярную zoom-конфу – ... | ||
+ | |||
+ | Лекции и семинары проходят также очно в аудитории ШАДа Сорбонна по средам с 18.10 до 21.00. | ||
== План курса == | == План курса == |
Версия 14:35, 9 сентября 2021
Содержание
О курсе
Курс по выбору для студентов 3 и 4 курса в 1-2 модулях. Курс ведет несколько сотрудников Яндекса.
Описание
В настоящее время практически любая содержательная задача, связанная с ML/AI, требует размеченных данных. Как правило, они нужны в большом количестве, а их сбор требует привлечения ручного труда. Размеченные данные необходимы не только на стадии анализа и при построении ML-моделей, но также в замкнутых производственных и продуктовых процессах (парадигма human-in-the-loop). Алиса, Поиск, Переводчик, Драйв, беспилотные автомобили, РСЯ – все эти технологии Яндекса основаны на масштабных процессах сбора и обработки данных.
Курс “Сбор и разметка данных для машинного обучения” направлен на овладение навыками работы с данными для машинного обучения. Эти навыки включают в себя дизайн конвейера сбора и обработки данных, его оптимизацию под разнообразные ограничения (бюджет, качество работы модели и проч.), автоматизацию этих процессов, оценку качества работы модели и ее улучшение. Все это – интегральная часть ML/AI-решений и задачи, с которыми инженеры сталкиваются в повседневной работе. По итогам курса слушатели смогут самостоятельно реализовать полный цикл работы с данными – от сбора обучающего набора данных до проверки и поддержания качества работы модели на меняющихся данных.
Программа предусматривает проведение лекционных и семинарских занятий, разбор примеров из индустрии и работу над несколькими индивидуальными проектами, основанными на реальных вызовах работы с данными. Помимо проектной работы, предполагается также выполнение и проверка домашних работ по темам лекций и семинаров. Дисциплина относится к вариативной части.
Элементы контроля
ДЗ1 – работа с платформой для сбора данных (4 балла)
ДЗ2 – контроль качества (5 баллов)
ДЗ3 – проект #1 (20 баллов)
ДЗ4 – агрегация данных (8 баллов)
ДЗ5 – агрегация данных (8 баллов)
ДЗ6 – проект #2 (25 баллов)
ДЗ7 – проект #3 (30 баллов)
Оценки
Окончательная оценка: ДЗ1 + ДЗ2 + ДЗ3 + ДЗ4 + ДЗ5 + ДЗ6 + ДЗ7 / 10
Разбалловка: от 0 до 39 баллов – незачёт от 39 до 59 – зачёт от 60 до 79 – хорошо от 80 до 100 – отлично
Дедлайны
Можно сдать в течение недели после дедлайна с потерей 25% баллов от оценки. После 1 недели теряется уже 50%.
Бюджет на домашки
Чтобы получить аккаунт в Толоке, на который мы будем класть бюджет для каждого ДЗ, нужно написать ФИО + ВУЗ на рассылку shad-accounts@yandex-team.ru
Полезные ссылки
Телеграм-чат курса: https://t.me/joinchat/iu3XYk87m8E1YTIy
@polinsmi – куратор курса, по всем вопросам можно приходить к ней
Время проведения лекций и семинаров
Ссылка на регулярную zoom-конфу – ...
Лекции и семинары проходят также очно в аудитории ШАДа Сорбонна по средам с 18.10 до 21.00.