Классификация соц-дем показателей с помощью нейронных сетей (командный проект)
Компания | Rambler&Co |
Учебный семестр | Осень 2016 |
Учебный курс | 3-й курс |
Максимальное количество студентов, выбравших проект: 2-3 | |
Содержание[убрать]
|
Что это за проект?
Нейронные сети уже несколько лет как зарекомендовали себя в качестве «серебряной пули» во многих задачах машинного обучения, особенно связанных с классификацией изображений или текстов.
Сверточные нейронные сети (CNN) и рекуррентные нейронные сети (RNN, в частности LSTM) — две популярные архитектуры, позволяющие добиться высокого качества в задачах классификации документов, которые задействуют принципиально разные подходы к пониманию текстов на естественном языке. В качестве примеров развития и комбинирования этих подходов уже появились Bi-Directional LSTM, C-LSTM и другие.
В качестве задания предлагается поэкспериментировать с классификацией пользователей интернета на основе текстов — заголовков страниц, которые они посещают. При этом предлагается рассмотреть несколько подходов последних лет.
Чему научатся студенты? Что самое интересное в проекте?
Ознакомление со state-of-the-art исследованиями в области классификации текстов на естественном языке.
Возможность попробовать себя в роли Data Scientist'а, спускающего эти исследования с небес академической науки на землю промышленного применения на реальных данных.
Организация работы (Как студенты будут работать в команде?)
На каждом из этапов легко распределять несколько моделей/путей улучшения внутри команды.
После каждого из этапов (одиночные модели/эмбеддинги/анасамбли) необходимо получить одобрение для перехода на следующий.
Компоненты (Из каких частей состоит проект?)
1. Ознакомление со статьями по классификации текстов последних лет:
- CNN (1408.5882, 1502.01710)
- LSTM (1503.04069, 1510.03753)
- CharCNN (1509.01626)
- C-LSTM (1511.08630)
- Bi-directional LSTM (1510.03753)
2. Реализация соответствующих архитектур на keras, подбор оптимальных параметров.
3. При наличии эмбеддинга в моделях изучение различных сценариев (см. 1408.5882):
- Обучение эмбеддинга с нуля
- Инициализция готовыми word2vec моделями и дообучение
- Фиксированный эмбеддинг готовыми word2vec моделями
- Комбинирование фиксированного и дообучаемого эмбеддинга
4. Построение ансамблей из моделей выше (см. 1510.03753).
5. Отчет/ноутбуки/репозиторий со всеми проведенными исследованиями и кодом для них.
Какие будут использоваться технологии?
theano/tensorflow + keras, GPU-вычисления на предоставляемых ресурсах
Какие начальные требования?
Знание питона на уровне, достаточном для изучения новой библиотеки по sphinx-документации и github-коду :)
Базовое знание об устройстве нейронных сетей, желание разобраться в их современных вариациях (при недостатке желания может помочь NIPS 2013 Tutorial от Rob Fergus или даже скачивание призмы на телефон, при недостатке понимания — курс CS231n от Стэнфордского университета).
Темы вводных занятий
Знакомство с простыми рекуррентными и сверточными архитектурами для классификации текстов, их реализация на keras.
Критерии оценки
- 4-5: реализация всех одиночных моделей, подбор параметров для них, репозиторий/ноутбуки/отчет
- 6-7: инициализация предобученными эмбеддингами для моделей с таковыми
- 8-10: построение оптимального ансамбля из рассмотренных моделей
Похожие проекты
Контактная информация
Евгений Нижибицкий (почта: e.nizhibitsky[at]rambler-co.ru, слак: @nizhib at ods, )