Демографический портрет пользователя (проект) — различия между версиями
Строка 53: | Строка 53: | ||
6-7: работающий классификатор, результат которого превышает baseline (результат заранее подготовленного примитивного классификатора) | 6-7: работающий классификатор, результат которого превышает baseline (результат заранее подготовленного примитивного классификатора) | ||
− | 8-9: классификатор, побивающий baseline, с визуализацией данных | + | 8-9: классификатор, побивающий baseline, с визуализацией данных или классификатор с простым веб-интерфейсом |
10: классификатор, побивающий baseline, с визуализацией самых популярных слов/тем по различным категориям | 10: классификатор, побивающий baseline, с визуализацией самых популярных слов/тем по различным категориям |
Версия 15:51, 2 февраля 2016
Ментор | Моисеев Георгий, Наседкин Александр |
Учебный семестр | Весна 2016 |
Учебный курс | 1-й курс |
Максимальное количество студентов, выбравших проект: 5 | |
Что это за проект?
Проект предполагает определение демографических атрибутов пользователя (пол, возраст, уровень образования) по тексту его комментариев в социальных сетях. Участникам предлагается выбрать интересующий их атрибут и разработать классификатор на основе алгоритмов машинного обучения определяющий выбранный атрибут. Проект может быть полезен для проведения социологических исследований, выявления каких-либо тенденций и мнений в социальных сетях.
Чему вы научитесь?
- Писать надежный и понятный код (будет проводиться code review)
- методам обработке текста
- извлечению и генерации признаков для классификации
- опыт в использовании алгоритмов машинного обучения
- методам оценки результатов классификации
Какие начальные требования?
Основы языка программирования Python
Какие будут использоваться технологии?
- Язык программирования Python
- библиотеки NLTK, sklearn, numpy, PyMorphy
Темы вводных занятий
- Работа с вебом и API социальных сетей
- Алгоритмы классификации
- Введение в автоматическую обработку текстов
Направления развития
- Визуализация исходной выборки и результатов
- Визуализация работы классификатора
- Извлечения тем из сообщений и визуализация статистики по различным демографическим категориям ("облако" самых популярных слов/тем для разных категорий)
Критерии оценки
4-5: работающий классификатор с минимальным составом признаков
6-7: работающий классификатор, результат которого превышает baseline (результат заранее подготовленного примитивного классификатора)
8-9: классификатор, побивающий baseline, с визуализацией данных или классификатор с простым веб-интерфейсом
10: классификатор, побивающий baseline, с визуализацией самых популярных слов/тем по различным категориям
Ориентировочное расписание занятий
Уточняется