Демографический портрет пользователя (проект) — различия между версиями

Материал из Wiki - Факультет компьютерных наук
Перейти к: навигация, поиск
(Новая страница, с помощью формы Новый_проект)
 
Строка 1: Строка 1:
 
{{Карточка_проекта
 
{{Карточка_проекта
 
|name=демографический портрет пользователя
 
|name=демографический портрет пользователя
|mentor=Моисеев Георгий, Наседкин Александр
+
|mentor=[[Участник:Just flare|Моисеев Георгий]] и [[Участник:Nasedkinav|Наседкин Александр]]
 
|mentor_login={{URLENCODE:Just flare|WIKI}}
 
|mentor_login={{URLENCODE:Just flare|WIKI}}
 
|semester=Весна 2016
 
|semester=Весна 2016

Версия 17:44, 10 декабря 2015

Ментор [[Участник:Just_flare|Моисеев Георгий и Наседкин Александр]]
Учебный семестр Весна 2016
Учебный курс 1-й курс
Максимальное количество студентов, выбравших проект: 5



Что это за проект?

Проект предполагает определение демографических атрибутов пользователя (пол, возраст, уровень образования) по тексту его комментариев. Участникам предлагается выбрать интересующий их атрибут и разработать классификатор на основе алгоритмов машинного обучения определяющий выбранный атрибут. Проект может быть полезен для проведения социологических исследований, выявления каких-либо тенденций и мнений в социальных сетях.

Чему вы научитесь?

  • методам обработке текста
  • извлечению и генерации признаков для классификации
  • опыт в использовании алгоритмов машинного обучения
  • методам оценки результатов классификации

Какие начальные требования?

Основы языка программирования Python

Какие будут использоваться технологии?

  • Язык программирования Python
  • библиотеки NLTK, sklearn, numpy, PyMorphy

Темы вводных занятий

1. Работа с вебом и API социальных сетей 2. Алгоритмы классификации 3. Введение в автоматическую обработку текстов

Направления развития

  • Визуализация исходной выборки и результатов
  • Визуализация работы классификатора
  • Извлечения тем из сообщений и визуализация статистики по различным демографическим категориям ("облако" самых популярных слов/тем для разных категорий)

Критерии оценки

  • 4-5 - работающий классификатор с минимальным составом признаков
  • 6-7 - работающий классификатор, результат которого превышает baseline (результат заранее подготовленного примитивного классификатора)
  • 8-9 - классификатор, побивающий baseline, с визуализацией данных
  • 10 - классификатор, побивающий baseline, с визуализацией самых популярных слов/тем по различным категориям

Ориентировочное расписание занятий

ВТ 15 00 - 18 00 СР 15 00 - 18 00