Классификация соц-дем показателей с помощью нейронных сетей (командный проект) — различия между версиями

Версия 00:53, 16 сентября 2016


Компания	Rambler&Co
Учебный семестр	Осень 2016
Учебный курс	3-й курс
Максимальное количество студентов, выбравших проект: 2-3
Содержание 1 Что это за проект? 2 Чему научатся студенты? Что самое интересное в проекте? 3 Организация работы (Как студенты будут работать в команде?) 4 Компоненты (Из каких частей состоит проект?) 5 Какие будут использоваться технологии? 6 Какие начальные требования? 7 Темы вводных занятий 8 Критерии оценки 9 Похожие проекты 10 Контактная информация

Сверточная сеть для классификации текстов

Что это за проект?

Нейронные сети уже несколько лет как зарекомендовали себя в качестве «серебряной пули» во многих задачах машинного обучения, особенно связанных с классификацией изображений или текстов.

Сверточные нейронные сети (CNN) и рекуррентные нейронные сети (RNN, в частности LSTM) — две популярные архитектуры, позволяющие добиться высокого качества в задачах классификации документов, которые задействуют принципиально разные подходы к пониманию текстов на естественном языке. В качестве примеров развития и комбинирования этих подходов уже появились Bi-Directional LSTM, C-LSTM и другие.

В качестве задания предлагается поэкспериментировать с классификацией пользователей интернета на основе текстов — заголовков страниц, которые они посещают. При этом предлагается рассмотреть несколько подходов последних лет.

Чему научатся студенты? Что самое интересное в проекте?

Ознакомление со state-of-the-art исследованиями в области классификации текстов на естественном языке.

Возможность попробовать себя в роли Data Scientist'а, спускающего эти исследования с небес академической науки на землю промышленного применения на реальных данных.

Организация работы (Как студенты будут работать в команде?)

На каждом из этапов легко распределять несколько моделей/путей улучшения внутри команды.

После каждого из этапов (одиночные модели/эмбеддинги/анасамбли) необходимо получить одобрение для перехода на следующий.

Компоненты (Из каких частей состоит проект?)

1. Ознакомление со статьями по классификации текстов последних лет:

CNN (1408.5882, 1502.01710)
LSTM (1503.04069, 1510.03753)
CharCNN (1509.01626)
C-LSTM (1511.08630)
Bi-directional LSTM (1510.03753)

2. Реализация соответствующих архитектур на keras, подбор оптимальных параметров.

3. При наличии эмбеддинга в моделях изучение различных сценариев (см. 1408.5882):

Обучение эмбеддинга с нуля
Инициализция готовыми word2vec моделями и дообучение
Фиксированный эмбеддинг готовыми word2vec моделями
Комбинирование фиксированного и дообучаемого эмбеддинга

4. Построение ансамблей из моделей выше (см. 1510.03753).

5. Отчет/ноутбуки/репозиторий со всеми проведенными исследованиями и кодом для них.

Какие будут использоваться технологии?

theano/tensorflow + keras, GPU-вычисления на предоставляемых ресурсах

Какие начальные требования?

Знание питона на уровне, достаточном для изучения новой библиотеки по sphinx-документации и github-коду :)

Базовое знание об устройстве нейронных сетей, желание разобраться в их современных вариациях (при недостатке желания может помочь NIPS 2013 Tutorial от Rob Fergus или даже скачивание призмы на телефон, при недостатке понимания — курс CS231n от Стэнфордского университета).

Темы вводных занятий

Знакомство с простыми рекуррентными и сверточными архитектурами для классификации текстов, их реализация на keras.

Критерии оценки

4-5: реализация всех одиночных моделей, подбор параметров для них, репозиторий/ноутбуки/отчет
6-7: инициализация предобученными эмбеддингами для моделей с таковыми
8-10: построение оптимального ансамбля из рассмотренных моделей

Контактная информация

Евгений Нижибицкий (e.nizhibitsky@rambler-co.ru)

@@ Строка 26: / Строка 26: @@
 После каждого из этапов (одиночные модели/эмбеддинги/анасамбли) необходимо получить одобрение для перехода на следующий.
-=== Компоненеты (Из каких частей состоит проект?) ===
+=== Компоненты (Из каких частей состоит проект?) ===
 . Ознакомление со статьями по классификации текстов последних лет:
 * CNN (1408.5882, 1502.01710)

Классификация соц-дем показателей с помощью нейронных сетей (командный проект) — различия между версиями

Версия 00:53, 16 сентября 2016

Содержание

Что это за проект?

Чему научатся студенты? Что самое интересное в проекте?

Организация работы (Как студенты будут работать в команде?)

Компоненты (Из каких частей состоит проект?)

Какие будут использоваться технологии?

Какие начальные требования?

Темы вводных занятий

Критерии оценки

Похожие проекты

Контактная информация

Навигация

Персональные инструменты

Пространства имён

Варианты

Просмотры

Действия

Поиск

Навигация

Инструменты