Сбор и обработка данных с помощью краудсорсинга 20/21

Материал из Wiki - Факультет компьютерных наук
Перейти к: навигация, поиск

О курсе

Курс по выбору для студентов 3 и 4 курса в 1-2 модулях.

Описание

В настоящее время практически любая содержательная задача по анализу данных или ML требует сбора размеченных данных, которые, как правило, нужны в большом количестве и требуют привлечения ручного труда. Работа с краудоявляется одним из востребованных и ключевых навыков, которыми необходимо уметь пользоваться специалистам по анализу данных, если они хотят расти и решать все более крупные и амбициозные задачи.

Краудсорсинг применяется не только на стадии анализа и при построении ML-моделей, но также в замкнутых производственных и продуктовых процессах (парадигма human-in-the-loop). Наиболее яркими продуктами Яндекса, в боевых процессах которых используется "крауд, являются: голосовой помощник Алиса, Поиск, Яндекс.Переводчик, Яндекс.Драйв, Яндекс.Справочник, Яндекс.Картинки и др.

Специалисты по краудсорсингу уже остро востребованы как на российском, так и на зарубежном рынке. Из нашего опыты выпускники нашего курса востребованы как в Яндексе, так и в других российских компаниях, таких как Ozon, Авито, Сбер. На международном рынке Google, Facebook, Huawei, Tesla, Amazon, Netflix, Microsoft тоже постоянно решают подобные задачи, требующие знаний методов краудсорсинга.

Наши преподаватели — специалисты из разных сервисов Яндекса, которые регулярно используют краудсорсинг для решения таких задач как определение релевантности поисковой выдачи, тестирования и распознавание речи или объектов на изображениях.

Результаты обучения на курсе

Студенты, прошедшие данный образовательный курс, будут обладать глубоким пониманием и систематизированной картиной технологий краудсорсинга, что должно повысить эффективность работы продуктовых процессов. Будет очень интересно!

Пререквизиты курса

Требуются базовые навыки программирования на Python и базовые знания html, js и css будут плюсами

Критерии оценивания

10 домашек, которые в сумме составляют 100 баллов

Каждая домашка проверяется семинаристом, который ведет соответсвующий семинар, и разбалловка каждого задания определяется семинаристом.

Отлично: 75-100

Хорошо: 55-74

Зачёт: 35-54

(Итоговая оценка получается следующим образом: сумма делится на 10 и частное округляется арифметически).

- можно сдать ДЗ в течение недели после дедлайна, потеряв 3 балла.

- можно сдать по желанию ДЗ по истечении 1 недели после дедлайна с максимальной оценкой 5 баллов.


Лекции проходят онлайн по понедельникам на 6 паре (18:10 - 19:30)

Семинары проходят онлайн по понедельникам на 5 паре (16:20 - 17:40)

Полезные ссылки

Телеграм-чат курса: https://t.me/crowd_course_2020

План курса

Лекции

  1. Введение и общая концепция краудсорсинга. Слайды лекции Запись лекции Запись семинара Слайды семинара
  2. Инструкция для краудсорсингового задания. Запись лекции Слайды Интерфейс задания. Запись лекции Слайды лекции Запись семинара Слайды семинара
  3. Основные компоненты краудсорсинга (II): Контроль качества. Слайды лекции Запись лекции Слайды семинара
  4. Классификация и, в отдельности, классификация изображений. Слайды лекции Слайды семинара раз Слайды семинара два
  5. Агрегация. Слайды лекции Слайды семинара
  6. Динамическое перекрытие и прайсинг. Слайды лекции
  7. Краудсорсинг для компьютерного зрения: Беспилотники и стартап Neatsy. Запись лекции Слайды лекции Запись семинара
  8. API и насущные вопросы по домашкам. Запись семинара
  9. Генерация контента. Запись лекции Слайды лекцииЗапись семинара Слайды семинара
  10. Попарное сравнение SbS. Запись лекции Слайды лекции
  11. Пешеходные задания и Гео-аналитика. Запись лекции 1 Запись лекции 2 Запись семинара
  12. Аннотирование звучащей речи для Голосовых Технологий и Агрегация ответов в аннотировании аудиозаписей. Запись лекции 1 Запись лекции 2 Запись семинара
  13. Тестирование и Заключение Запись лекции Запись семинара

Семинары

  1. Введение в краудсорсинг на практике
  2. Создание первого пайплайна
  3. Создание интерфейса
  4. Антифрод
  5. Простая и сложная классификация
  6. Програмирование модели агрегации
  7. Работа с API
  8. Краудсорсинг для CV
  9. Генерация контента
  10. Агрегация SbS
  11. Пешеходное задание
  12. Агрегация ответов аннотированных аудиозаписей
  13. Тестирование

Домашние задания

Инвайт в anytask: Qg41Grx