Классификация соц-дем показателей с помощью нейронных сетей (командный проект)

Материал из Wiki - Факультет компьютерных наук
Версия от 13:01, 8 октября 2017; GalinaKaleeva (обсуждение | вклад)

(разн.) ← Предыдущая | Текущая версия (разн.) | Следующая → (разн.)
Перейти к: навигация, поиск
Компания Rambler&Co
Учебный семестр Осень 2016
Учебный курс 3-й курс
Максимальное количество студентов, выбравших проект: 2-3


Внимание! Данный проект находится в архиве и реализован не будет.

Сверточная сеть для классификации текстов

Что это за проект?

Нейронные сети уже несколько лет как зарекомендовали себя в качестве «серебряной пули» во многих задачах машинного обучения, особенно связанных с классификацией изображений или текстов.

Сверточные нейронные сети (CNN) и рекуррентные нейронные сети (RNN, в частности LSTM) — две популярные архитектуры, позволяющие добиться высокого качества в задачах классификации документов, которые задействуют принципиально разные подходы к пониманию текстов на естественном языке. В качестве примеров развития и комбинирования этих подходов уже появились Bi-Directional LSTM, C-LSTM и другие.

В качестве задания предлагается поэкспериментировать с классификацией пользователей интернета на основе текстов — заголовков страниц, которые они посещают. При этом предлагается рассмотреть несколько подходов последних лет.

Чему научатся студенты? Что самое интересное в проекте?

Ознакомление со state-of-the-art исследованиями в области классификации текстов на естественном языке.

Возможность попробовать себя в роли Data Scientist'а, спускающего эти исследования с небес академической науки на землю промышленного применения на реальных данных.

Организация работы (Как студенты будут работать в команде?)

На каждом из этапов легко распределять несколько моделей/путей улучшения внутри команды.

После каждого из этапов (одиночные модели/эмбеддинги/анасамбли) необходимо получить одобрение для перехода на следующий.

Компоненты (Из каких частей состоит проект?)

1. Ознакомление со статьями по классификации текстов последних лет:

  • CNN (1408.5882, 1502.01710)
  • LSTM (1503.04069, 1510.03753)
  • CharCNN (1509.01626)
  • C-LSTM (1511.08630)
  • Bi-directional LSTM (1510.03753)

2. Реализация соответствующих архитектур на keras, подбор оптимальных параметров.

3. При наличии эмбеддинга в моделях изучение различных сценариев (см. 1408.5882):

  • Обучение эмбеддинга с нуля
  • Инициализция готовыми word2vec моделями и дообучение
  • Фиксированный эмбеддинг готовыми word2vec моделями
  • Комбинирование фиксированного и дообучаемого эмбеддинга

4. Построение ансамблей из моделей выше (см. 1510.03753).

5. Отчет/ноутбуки/репозиторий со всеми проведенными исследованиями и кодом для них.

Какие будут использоваться технологии?

theano/tensorflow + keras, GPU-вычисления на предоставляемых ресурсах

Какие начальные требования?

Знание питона на уровне, достаточном для изучения новой библиотеки по sphinx-документации и github-коду :)

Базовое знание об устройстве нейронных сетей, желание разобраться в их современных вариациях (при недостатке желания может помочь NIPS 2013 Tutorial от Rob Fergus или даже скачивание призмы на телефон, при недостатке понимания — курс CS231n от Стэнфордского университета).

Темы вводных занятий

Знакомство с простыми рекуррентными и сверточными архитектурами для классификации текстов, их реализация на keras.

Критерии оценки

  • 4-5: реализация всех одиночных моделей, подбор параметров для них, репозиторий/ноутбуки/отчет
  • 6-7: инициализация предобученными эмбеддингами для моделей с таковыми
  • 8-10: построение оптимального ансамбля из рассмотренных моделей

Похожие проекты

Контактная информация

Евгений Нижибицкий (почта: e.nizhibitsky[at]rambler-co.ru, слак: @nizhib at ods, )