Сбор и разметка данных для машинного обучения 21/22 — различия между версиями

Материал из Wiki - Факультет компьютерных наук
Перейти к: навигация, поиск
(Новая страница: «== О курсе == Курс по выбору для студентов 3 и 4 курса в 1-2 модулях. === Описание === === Критери…»)
 
Строка 3: Строка 3:
 
Курс по выбору для студентов 3 и 4 курса в 1-2 модулях.
 
Курс по выбору для студентов 3 и 4 курса в 1-2 модулях.
  
=== Описание ===  
+
=== Описание ===
 +
 
 +
В настоящее время практически любая содержательная задача, связанная с ML/AI, требует размеченных данных. Как правило, они нужны в большом количестве, а их сбор требует привлечения ручного труда. Размеченные данные необходимы не только на стадии анализа и при построении ML-моделей, но также в замкнутых производственных и продуктовых процессах (парадигма human-in-the-loop). Алиса, Поиск, Переводчик, Драйв, беспилотные автомобили, РСЯ – все эти технологии Яндекса основаны на масштабных процессах сбора и обработки данных.
 +
 
 +
Курс “Сбор и разметка данных для машинного обучения” направлен на овладение навыками работы с данными для машинного обучения. Эти навыки включают в себя дизайн конвейера сбора и обработки данных, его оптимизацию под разнообразные ограничения (бюджет, качество работы модели и проч.), автоматизацию этих процессов, оценку качества работы модели и ее улучшение. Все это – интегральная часть ML/AI-решений и задачи, с которыми инженеры сталкиваются в повседневной работе. По итогам курса слушатели смогут самостоятельно реализовать полный цикл работы с данными – от сбора обучающего набора данных до проверки и поддержания качества работы модели на меняющихся данных.
 +
 
 +
Программа предусматривает проведение лекционных и семинарских занятий, разбор примеров из индустрии и работу над несколькими индивидуальными проектами, основанными на реальных вызовах работы с данными. Помимо проектной работы, предполагается также выполнение и проверка домашних работ по темам лекций и семинаров. Дисциплина относится к вариативной части.
  
 
=== Критерии оценивания ===
 
=== Критерии оценивания ===

Версия 14:22, 9 сентября 2021

О курсе

Курс по выбору для студентов 3 и 4 курса в 1-2 модулях.

Описание

В настоящее время практически любая содержательная задача, связанная с ML/AI, требует размеченных данных. Как правило, они нужны в большом количестве, а их сбор требует привлечения ручного труда. Размеченные данные необходимы не только на стадии анализа и при построении ML-моделей, но также в замкнутых производственных и продуктовых процессах (парадигма human-in-the-loop). Алиса, Поиск, Переводчик, Драйв, беспилотные автомобили, РСЯ – все эти технологии Яндекса основаны на масштабных процессах сбора и обработки данных.

Курс “Сбор и разметка данных для машинного обучения” направлен на овладение навыками работы с данными для машинного обучения. Эти навыки включают в себя дизайн конвейера сбора и обработки данных, его оптимизацию под разнообразные ограничения (бюджет, качество работы модели и проч.), автоматизацию этих процессов, оценку качества работы модели и ее улучшение. Все это – интегральная часть ML/AI-решений и задачи, с которыми инженеры сталкиваются в повседневной работе. По итогам курса слушатели смогут самостоятельно реализовать полный цикл работы с данными – от сбора обучающего набора данных до проверки и поддержания качества работы модели на меняющихся данных.

Программа предусматривает проведение лекционных и семинарских занятий, разбор примеров из индустрии и работу над несколькими индивидуальными проектами, основанными на реальных вызовах работы с данными. Помимо проектной работы, предполагается также выполнение и проверка домашних работ по темам лекций и семинаров. Дисциплина относится к вариативной части.

Критерии оценивания

7 домашек, которые в сумме составляют 100 баллов

Каждая домашка проверяется семинаристом, который ведет соответсвующий семинар, и разбалловка каждого задания определяется семинаристом.

Отлично: 75-100

Хорошо: 55-74

Зачёт: 35-54

(Итоговая оценка получается следующим образом: сумма делится на 10 и частное округляется арифметически).

- можно сдать ДЗ в течение недели после дедлайна, потеряв 3 балла.

- можно сдать по желанию ДЗ по истечении 1 недели после дедлайна с максимальной оценкой 5 баллов.


Лекции проходят онлайн по

Семинары проходят онлайн по

Полезные ссылки

Телеграм-чат курса:

План курса

Лекции

Семинары

Домашние задания