Сбор и разметка данных для машинного обучения 21/22 — различия между версиями

Материал из Wiki - Факультет компьютерных наук
Перейти к: навигация, поиск
Строка 1: Строка 1:
 
== О курсе ==
 
== О курсе ==
  
Курс по выбору для студентов 3 и 4 курса в 1-2 модулях.
+
Курс по выбору для студентов 3 и 4 курса в 1-2 модулях. Курс ведет несколько сотрудников Яндекса.
  
 
=== Описание ===
 
=== Описание ===
Строка 11: Строка 11:
 
Программа предусматривает проведение лекционных и семинарских занятий, разбор примеров из индустрии и работу над несколькими индивидуальными проектами, основанными на реальных вызовах работы с данными. Помимо проектной работы, предполагается также выполнение и проверка домашних работ по темам лекций и семинаров. Дисциплина относится к вариативной части.
 
Программа предусматривает проведение лекционных и семинарских занятий, разбор примеров из индустрии и работу над несколькими индивидуальными проектами, основанными на реальных вызовах работы с данными. Помимо проектной работы, предполагается также выполнение и проверка домашних работ по темам лекций и семинаров. Дисциплина относится к вариативной части.
  
=== Критерии оценивания ===
+
=== Элементы контроля ===
7 домашек, которые в сумме составляют 100 баллов
+
ДЗ1 – работа с платформой для сбора данных (4 балла)
  
Каждая домашка проверяется семинаристом, который ведет соответсвующий семинар, и разбалловка каждого задания определяется семинаристом.
+
ДЗ2 – контроль качества (5 баллов)
  
Отлично: 75-100
+
ДЗ3 – проект #1 (20 баллов)
  
Хорошо: 55-74
+
ДЗ4 – агрегация данных (8 баллов)
  
Зачёт: 35-54
+
ДЗ5 – агрегация данных (8 баллов)
  
(Итоговая оценка получается следующим образом: сумма делится на 10 и частное округляется арифметически).
+
ДЗ6 – проект #2 (25 баллов)
  
- можно сдать ДЗ в течение недели после дедлайна, потеряв 3 балла.
+
ДЗ7 – проект #3 (30 баллов)
 +
 +
==== Оценки ====
  
- можно сдать по желанию ДЗ по истечении 1 недели после дедлайна с максимальной оценкой 5 баллов.
+
Окончательная оценка: ДЗ1 + ДЗ2 + ДЗ3 + ДЗ4 + ДЗ5 + ДЗ6 + ДЗ7 / 10
  
 +
Разбалловка:
 +
от 0 до 39 баллов – незачёт
 +
от 39 до 59 – зачёт
 +
от 60 до 79 – хорошо
 +
от 80 до 100 – отлично
  
Лекции проходят онлайн по
+
==== Дедлайны ====
 +
 
 +
Можно сдать в течение недели после дедлайна с потерей 25% баллов от оценки. После 1 недели теряется уже 50%.
 +
 
 +
==== Бюджет на домашки ====
 +
Чтобы получить аккаунт в Толоке, на который мы будем класть бюджет для каждого ДЗ, нужно написать ФИО + ВУЗ на рассылку shad-accounts@yandex-team.ru
  
Семинары проходят онлайн по
 
  
 
=== Полезные ссылки ===
 
=== Полезные ссылки ===
  
Телеграм-чат курса:  
+
Телеграм-чат курса: https://t.me/joinchat/iu3XYk87m8E1YTIy
 +
 
 +
@polinsmi – куратор курса, по всем вопросам можно приходить к ней
 +
 
 +
=== Время проведения лекций и семинаров ===
 +
 
 +
Ссылка на регулярную zoom-конфу – ...
 +
 
 +
Лекции и семинары проходят также очно в аудитории ШАДа Сорбонна по средам с 18.10 до 21.00.
  
 
== План курса ==
 
== План курса ==

Версия 14:35, 9 сентября 2021

О курсе

Курс по выбору для студентов 3 и 4 курса в 1-2 модулях. Курс ведет несколько сотрудников Яндекса.

Описание

В настоящее время практически любая содержательная задача, связанная с ML/AI, требует размеченных данных. Как правило, они нужны в большом количестве, а их сбор требует привлечения ручного труда. Размеченные данные необходимы не только на стадии анализа и при построении ML-моделей, но также в замкнутых производственных и продуктовых процессах (парадигма human-in-the-loop). Алиса, Поиск, Переводчик, Драйв, беспилотные автомобили, РСЯ – все эти технологии Яндекса основаны на масштабных процессах сбора и обработки данных.

Курс “Сбор и разметка данных для машинного обучения” направлен на овладение навыками работы с данными для машинного обучения. Эти навыки включают в себя дизайн конвейера сбора и обработки данных, его оптимизацию под разнообразные ограничения (бюджет, качество работы модели и проч.), автоматизацию этих процессов, оценку качества работы модели и ее улучшение. Все это – интегральная часть ML/AI-решений и задачи, с которыми инженеры сталкиваются в повседневной работе. По итогам курса слушатели смогут самостоятельно реализовать полный цикл работы с данными – от сбора обучающего набора данных до проверки и поддержания качества работы модели на меняющихся данных.

Программа предусматривает проведение лекционных и семинарских занятий, разбор примеров из индустрии и работу над несколькими индивидуальными проектами, основанными на реальных вызовах работы с данными. Помимо проектной работы, предполагается также выполнение и проверка домашних работ по темам лекций и семинаров. Дисциплина относится к вариативной части.

Элементы контроля

ДЗ1 – работа с платформой для сбора данных (4 балла)

ДЗ2 – контроль качества (5 баллов)

ДЗ3 – проект #1 (20 баллов)

ДЗ4 – агрегация данных (8 баллов)

ДЗ5 – агрегация данных (8 баллов)

ДЗ6 – проект #2 (25 баллов)

ДЗ7 – проект #3 (30 баллов)

Оценки

Окончательная оценка: ДЗ1 + ДЗ2 + ДЗ3 + ДЗ4 + ДЗ5 + ДЗ6 + ДЗ7 / 10

Разбалловка: от 0 до 39 баллов – незачёт от 39 до 59 – зачёт от 60 до 79 – хорошо от 80 до 100 – отлично

Дедлайны

Можно сдать в течение недели после дедлайна с потерей 25% баллов от оценки. После 1 недели теряется уже 50%.

Бюджет на домашки

Чтобы получить аккаунт в Толоке, на который мы будем класть бюджет для каждого ДЗ, нужно написать ФИО + ВУЗ на рассылку shad-accounts@yandex-team.ru


Полезные ссылки

Телеграм-чат курса: https://t.me/joinchat/iu3XYk87m8E1YTIy

@polinsmi – куратор курса, по всем вопросам можно приходить к ней

Время проведения лекций и семинаров

Ссылка на регулярную zoom-конфу – ...

Лекции и семинары проходят также очно в аудитории ШАДа Сорбонна по средам с 18.10 до 21.00.

План курса

Лекции

Семинары

Домашние задания