SQuAD (проект)

Материал из Wiki - Факультет компьютерных наук
Перейти к: навигация, поиск
Ментор Симагин Денис
Учебный семестр Осень 2017
Учебный курс 2-й курс
Максимальное количество студентов, выбравших проект: 10



Что это за проект?

Проект носит исследовательский характер. Существует интересный датасет известный, как Suicide SQuAD. Необходимо предложить алгоритм, который способен "прочитать" статью, а затем по вопросу сгенерировать ответ на нее. Уже существует "пачка" научных статей, посвященных этой задаче. Наша цель заключается в том, чтобы изучить существующие методы и попробовать обучить собственную модель.

Для того, чтобы попасть на проект, нужно пройти собеседование.

Чему вы научитесь?

  1. Чтение научных статей на английском.
  2. Погружение в машинное обучение.
  3. Нейронные сети для работы с текстами.
  4. Атмосфера исследования.
  5. Ревью кода.

Какие начальные требования?

  1. Машина с UNIX-подобной ОС и мощной видеокартой (возможно облачная)
  2. Знание Python 3, Git и работа с командной оболочкой.
  3. Базовые знания в машинном обучении
  4. Хорошая математическая подготовка
  5. Английский

Какие будут использоваться технологии?

  1. В качестве основного языка будет Python 3
  2. Для обучения сейчас принято использовать tensorflow, однако набирает популярность библиотека cntk (она шустрая).
  3. Так же вы можете проводить вычисления на ресурсах aws или воспользоваться google cloud.

Темы вводных занятий

  1. Кратко о обучении с учителем.
  2. Линейные модели, градиентный спуск.
  3. Введение в нейронные сети.
  4. Сверточные сети
  5. Рекуррентные сети
  6. Нейронные сети для работы с текстом.

Направления развития

  1. Это достаточно свежая тема для исследований. Изучать статьи и проводить эксперименты можно долго.
  2. Поиск по английской wikipedia на основе обученной модели.

Критерии оценки

  1. Необходимым, но не достаточным критерием получения "зачет" и выше является доклад на семинаре.
  2. Для оценки 7 и ниже необходимо в срок выполнять все задания.
  3. Дополнительные 3 балла распределяются на основании качества вашей модели по сравнению с коллегами.

Ориентировочное расписание занятий

Проект предполагает еженедельные встречи для проведения семинаров и отслеживания прогресса. Время будет обсуждаться отдельно с группой. Возможен вариант с утром (8-10) в стенах ШАДа или вечером (7-9) в ВШЭ.