МОВС Сбор и разметка данных для МО (2022-23, 7 модуль) — различия между версиями

Материал из Wiki - Факультет компьютерных наук
Перейти к: навигация, поиск
(create page)
 
м (add curriculum)
Строка 1: Строка 1:
 
==О курсе==
 
==О курсе==
  
Занятия проводятся в [ Zoom] '''по вторникам в 18:00'''
+
Занятия проводятся в [https://us06web.zoom.us/j/87122630330?pwd=OEcyUlNEQ3Z3QStIc1U4ejUvbVpvZz09 Zoom] '''по вторникам в 18:00'''
  
 
==Контакты==
 
==Контакты==
Строка 7: Строка 7:
 
Канал курса в TG: [[https://t.me/+02a_f6ahQZM1ZDc6 channel link]]
 
Канал курса в TG: [[https://t.me/+02a_f6ahQZM1ZDc6 channel link]]
  
Чат курса в TG: [[ chat link]]
+
Чат курса в TG: [[https://t.me/+2MVd5yfgTS0wNGM6 chat link]]
  
Преподаватель:  
+
Преподаватели: Смирнова Полина, Кошелев Сергей, Павличенко Никита, Куцев Роман
  
 
{| class="wikitable"
 
{| class="wikitable"
Строка 15: Строка 15:
 
! Ассистент !! Контакты  
 
! Ассистент !! Контакты  
 
|-
 
|-
| style="background:#eaecf0;" | ||  
+
| style="background:#eaecf0;" | Максим Лутан || [https://t.me/moai_monument @moai_monument]
|-
+
 
| style="background:#eaecf0;" |  ||
+
 
|}
 
|}
  
 
==Материалы курса==
 
==Материалы курса==
Ссылка на плейлист курса на YouTube: [[ YouTube-playlist]]
+
Ссылка на плейлист курса на YouTube: [[https://www.youtube.com/playlist?list=PLmA-1xX7IuzBgH9SMUAsmFRhP7iGuGHNG YouTube-playlist]]
  
 
Ссылка на GitHub с материалами курса: [[ GitHub repository]]
 
Ссылка на GitHub с материалами курса: [[ GitHub repository]]
Строка 27: Строка 26:
 
{| class="wikitable"
 
{| class="wikitable"
 
|-
 
|-
  ! Занятие !! Тема !! Дата !! Материалы для самоподготовки к семинарам !! Дополнительные материалы
+
  ! Занятие !! Тема !! Дата !! Материалы для самоподготовки к семинарам !! Семинар
 
|-
 
|-
| style="background:#eaecf0;" | '''1''' [[ Запись]] || [[ Ноутбук]] Работа с данными в МО. Общая концепция краудсорсинга. Декомпозиция задачи, проектирование интерфейсов и инструкций, автоматизация конвейера по сбору и разметке данных || 10.01.23 || ||  
+
| style="background:#eaecf0;" | '''1''' || Введение. Работа с данными в МО. || 10.01.23 || [https://disk.yandex.ru/d/98xnoHxYwIFB2A Лекция (асинхронно) в записи] || Без семинара
 
|-
 
|-
| style="background:#eaecf0;" | '''2''' [[ Запись]] || [[ Ноутбук]] Контроль качества данных: этапы и инструменты || 17.01.23 || ||  
+
| style="background:#eaecf0;" | '''2''' [[ Запись семинара]] || Общая концепция краудсорсинга. Декомпозиция задачи, проектирование интерфейсов и инструкций. || 17.01.23 || [https://disk.yandex.ru/i/EgKst_tgRoQB-g Лекция (асинхронно) в записи] || "Работа с платформой для сбора и разметки данных", ''Сергей Кошелев''
 
|-
 
|-
| style="background:#eaecf0;" | '''3''' [[ Запись]] || [[ Ноутбук]] Агрегация данных. Категориальная и попарная разметка || 24.01.23 || ||
+
 
 +
| style="background:#eaecf0;" | '''3''' || Контроль качества данных: этапы и инструменты || 24.01.23 || [https://disk.yandex.ru/i/ECg-3a19PO-Pbg Лекция (асинхронно) в записи] || [[ Семинар (асинхронно) в записи]]
 
|-
 
|-
| style="background:#eaecf0;" | '''4''' [[ Запись]] || [[ Ноутбук]] Оптимизация процессов разметки: Human-in-the-loop и др. подходы || 31.01.23 || ||  
+
| style="background:#eaecf0;" | '''4''' [[ Запись семинара]] || '''Кейс-стади''': работа с данными для CV || 31.01.23 || [https://disk.yandex.ru/d/tAFr9q9wn-nerQ Лекция (асинхронно) в записи] || "Автоматизация конвейера по сбору и разметке данных", ''Сергей Кошелев''
 
|-
 
|-
| style="background:#eaecf0;" | '''5''' [[ Запись]] || [[ Ноутбук]] Кейс-стади: машинный перевод, компьютерное зрение и беспилотники, голосовые технологии|| 07.02.23 || ||  
+
| style="background:#eaecf0;" | '''5''' [[ Запись семинара]] || Агрегация полученных результатов: категориальная и попарная разметка || 07.02.23 || [https://disk.yandex.ru/i/bM7nQEPa18tnhw Лекция (асинхронно) в записи] || "Агрегация полученных результатов: категориальная и попарная разметка", ''Никита Павличенко''
 
|-
 
|-
| style="background:#eaecf0;" | '''6''' [[ Запись]] || [[ Ноутбук]] || 14.02.23 || ||  
+
| style="background:#eaecf0;" | '''6''' [[ Запись семинара]] || Агрегация полученных результатов: агрегация сложных ответов|| 14.02.23 || [https://disk.yandex.ru/i/NvlZoh4J78h4VQ Лекция (асинхронно) в записи] || "Агрегация полученных результатов: агрегация сложных ответов", ''Никита Павличенко''
 
|-
 
|-
| style="background:#eaecf0;" | '''7''' [[ Запись]] || [[ Ноутбук]] || 21.02.23 || ||  
+
| style="background:#eaecf0;" | '''7''' [[ Запись семинара]] || Оптимизация процессов разметки: Human-in-the-loop и др. подходы || 21.02.23 || [https://disk.yandex.ru/i/utjAhMUZ7IFIuA Лекция (асинхронно) в записи] || "Human-in-the-loop и др. подходы к оптимизации процессов разметки", ''Роман Куцев''
 
|-
 
|-
| style="background:#eaecf0;" | '''8''' [[ Запись]] || [[ Ноутбук]] || 28.02.23 || ||  
+
| style="background:#eaecf0;" | '''8''' || '''Кейс-стади: ''' работа с данными для Яндекс.Переводчика || 28.02.23 || [https://disk.yandex.ru/i/o7M714-8XioBDg Лекция (асинхронно) в записи] || Без семинара
 
|-
 
|-
| style="background:#eaecf0;" | '''9''' [[ Запись]] || [[ Ноутбук]] || 07.03.23 || ||  
+
| style="background:#eaecf0;" | '''9''' [[ Запись семинара]] || '''Кейс-стади: ''' работа с данными для Алисы || 07.03.23 || [https://disk.yandex.ru/i/GG2_VBfP0Ex4 Лекция (асинхронно) в записи]|| "Презентация проектов командами", ''Полина Смирнова & Никита Павличенко''
 
|-
 
|-
 
|}
 
|}
 
=== Записи консультаций ===
 
 
  
 
==Формула оценивания==
 
==Формула оценивания==
Строка 57: Строка 54:
  
 
== Домашние задания ==
 
== Домашние задания ==
#  
+
# Работа с платформой для сбора и разметки данных | Бюджет - $3
#  
+
# Автоматизация процесса сбора и разметки данных | Бюджет - $3
#  
+
# Контроль качества данных | Бюджет - $6
#  
+
# Агрегация данных | Без бюджета
#
+
# Агрегация данных | Без бюджета
 +
 
 +
* Финальный проект (в группах по 3-4 человека) | Бюджет - $20 на команду
  
 
== Литература ==
 
== Литература ==
 
# Drutsa Alexey, Farafonova Viktoriya, Fedorova Valentina, Megorskaya Olga, Zerminova Evfrosiniya, Zhilinskaya Olga. Practice of Efficient Data Collection via Crowdsourcing at Large-Scale. 2019
 
# Drutsa Alexey, Farafonova Viktoriya, Fedorova Valentina, Megorskaya Olga, Zerminova Evfrosiniya, Zhilinskaya Olga. Practice of Efficient Data Collection via Crowdsourcing at Large-Scale. 2019
 
# Ustalov Dmitry, Pavlichenko Nikita, Tseytlin Boris, Baidakova Daria; Drutsa Alexey. Web Engineering with Human-in-the-Loop. 2022.
 
# Ustalov Dmitry, Pavlichenko Nikita, Tseytlin Boris, Baidakova Daria; Drutsa Alexey. Web Engineering with Human-in-the-Loop. 2022.

Версия 15:08, 17 января 2023

О курсе

Занятия проводятся в Zoom по вторникам в 18:00

Контакты

Канал курса в TG: [channel link]

Чат курса в TG: [chat link]

Преподаватели: Смирнова Полина, Кошелев Сергей, Павличенко Никита, Куцев Роман

Ассистент Контакты
Максим Лутан @moai_monument

Материалы курса

Ссылка на плейлист курса на YouTube: [YouTube-playlist]

Ссылка на GitHub с материалами курса: GitHub repository

Занятие Тема Дата Материалы для самоподготовки к семинарам Семинар
1 Введение. Работа с данными в МО. 10.01.23 Лекция (асинхронно) в записи Без семинара
2 Запись семинара Общая концепция краудсорсинга. Декомпозиция задачи, проектирование интерфейсов и инструкций. 17.01.23 Лекция (асинхронно) в записи "Работа с платформой для сбора и разметки данных", Сергей Кошелев
3 Контроль качества данных: этапы и инструменты 24.01.23 Лекция (асинхронно) в записи Семинар (асинхронно) в записи
4 Запись семинара Кейс-стади: работа с данными для CV 31.01.23 Лекция (асинхронно) в записи "Автоматизация конвейера по сбору и разметке данных", Сергей Кошелев
5 Запись семинара Агрегация полученных результатов: категориальная и попарная разметка 07.02.23 Лекция (асинхронно) в записи "Агрегация полученных результатов: категориальная и попарная разметка", Никита Павличенко
6 Запись семинара Агрегация полученных результатов: агрегация сложных ответов 14.02.23 Лекция (асинхронно) в записи "Агрегация полученных результатов: агрегация сложных ответов", Никита Павличенко
7 Запись семинара Оптимизация процессов разметки: Human-in-the-loop и др. подходы 21.02.23 Лекция (асинхронно) в записи "Human-in-the-loop и др. подходы к оптимизации процессов разметки", Роман Куцев
8 Кейс-стади: работа с данными для Яндекс.Переводчика 28.02.23 Лекция (асинхронно) в записи Без семинара
9 Запись семинара Кейс-стади: работа с данными для Алисы 07.03.23 Лекция (асинхронно) в записи "Презентация проектов командами", Полина Смирнова & Никита Павличенко

Формула оценивания

Оценка = (ДЗ-1 (3 балла) + ДЗ-2 (3 балла) + ДЗ-3 (8 баллов) + ДЗ-4 (8 баллов) + ДЗ-5 (8 баллов) + Финальный проект (20 баллов)) / 5

Домашние задания

  1. Работа с платформой для сбора и разметки данных | Бюджет - $3
  2. Автоматизация процесса сбора и разметки данных | Бюджет - $3
  3. Контроль качества данных | Бюджет - $6
  4. Агрегация данных | Без бюджета
  5. Агрегация данных | Без бюджета
  • Финальный проект (в группах по 3-4 человека) | Бюджет - $20 на команду

Литература

  1. Drutsa Alexey, Farafonova Viktoriya, Fedorova Valentina, Megorskaya Olga, Zerminova Evfrosiniya, Zhilinskaya Olga. Practice of Efficient Data Collection via Crowdsourcing at Large-Scale. 2019
  2. Ustalov Dmitry, Pavlichenko Nikita, Tseytlin Boris, Baidakova Daria; Drutsa Alexey. Web Engineering with Human-in-the-Loop. 2022.