Демографический портрет пользователя (проект) — различия между версиями
Материал из Wiki - Факультет компьютерных наук
(Новая страница, с помощью формы Новый_проект) |
|||
Строка 1: | Строка 1: | ||
{{Карточка_проекта | {{Карточка_проекта | ||
|name=демографический портрет пользователя | |name=демографический портрет пользователя | ||
− | |mentor=Моисеев Георгий | + | |mentor=[[Участник:Just flare|Моисеев Георгий]] и [[Участник:Nasedkinav|Наседкин Александр]] |
|mentor_login={{URLENCODE:Just flare|WIKI}} | |mentor_login={{URLENCODE:Just flare|WIKI}} | ||
|semester=Весна 2016 | |semester=Весна 2016 |
Версия 17:44, 10 декабря 2015
Ментор | [[Участник:Just_flare|Моисеев Георгий и Наседкин Александр]] |
Учебный семестр | Весна 2016 |
Учебный курс | 1-й курс |
Максимальное количество студентов, выбравших проект: 5 | |
Что это за проект?
Проект предполагает определение демографических атрибутов пользователя (пол, возраст, уровень образования) по тексту его комментариев. Участникам предлагается выбрать интересующий их атрибут и разработать классификатор на основе алгоритмов машинного обучения определяющий выбранный атрибут. Проект может быть полезен для проведения социологических исследований, выявления каких-либо тенденций и мнений в социальных сетях.
Чему вы научитесь?
- методам обработке текста
- извлечению и генерации признаков для классификации
- опыт в использовании алгоритмов машинного обучения
- методам оценки результатов классификации
Какие начальные требования?
Основы языка программирования Python
Какие будут использоваться технологии?
- Язык программирования Python
- библиотеки NLTK, sklearn, numpy, PyMorphy
Темы вводных занятий
1. Работа с вебом и API социальных сетей 2. Алгоритмы классификации 3. Введение в автоматическую обработку текстов
Направления развития
- Визуализация исходной выборки и результатов
- Визуализация работы классификатора
- Извлечения тем из сообщений и визуализация статистики по различным демографическим категориям ("облако" самых популярных слов/тем для разных категорий)
Критерии оценки
- 4-5 - работающий классификатор с минимальным составом признаков
- 6-7 - работающий классификатор, результат которого превышает baseline (результат заранее подготовленного примитивного классификатора)
- 8-9 - классификатор, побивающий baseline, с визуализацией данных
- 10 - классификатор, побивающий baseline, с визуализацией самых популярных слов/тем по различным категориям
Ориентировочное расписание занятий
ВТ 15 00 - 18 00 СР 15 00 - 18 00