Демографический портрет пользователя (проект) — различия между версиями

Материал из Wiki - Факультет компьютерных наук
Перейти к: навигация, поиск
 
(не показано 8 промежуточных версии 3 участников)
Строка 1: Строка 1:
 
{{Карточка_проекта
 
{{Карточка_проекта
 
|name=демографический портрет пользователя
 
|name=демографический портрет пользователя
|mentor=[[Участник:Just flare|Моисеев Георгий]] и [[Участник:Nasedkinav|Наседкин Александр]]
+
|mentor=Моисеев Георгий
 
|mentor_login={{URLENCODE:Just flare|WIKI}}
 
|mentor_login={{URLENCODE:Just flare|WIKI}}
 +
|mentor_2=Наседкин Александр
 +
|mentor_login_2={{URLENCODE:Nasedkinav|WIKI}}
 
|semester=Весна 2016
 
|semester=Весна 2016
 
|course=1
 
|course=1
Строка 11: Строка 13:
  
 
=== Что это за проект? ===
 
=== Что это за проект? ===
Проект предполагает определение демографических атрибутов пользователя (пол, возраст, уровень образования) по тексту его комментариев. Участникам предлагается выбрать интересующий их атрибут и разработать классификатор на основе алгоритмов машинного обучения определяющий выбранный атрибут.   
+
Проект предполагает определение демографических атрибутов пользователя (пол, возраст, уровень образования) по тексту его комментариев в социальных сетях. Участникам предлагается выбрать интересующий их атрибут и разработать классификатор на основе алгоритмов машинного обучения определяющий выбранный атрибут.   
 
Проект может быть полезен для проведения социологических исследований, выявления каких-либо тенденций и мнений в социальных сетях.
 
Проект может быть полезен для проведения социологических исследований, выявления каких-либо тенденций и мнений в социальных сетях.
  
 
=== Чему вы научитесь? ===
 
=== Чему вы научитесь? ===
 +
* Писать надежный и понятный код (будет проводиться code review)
 
* методам обработке текста
 
* методам обработке текста
 +
 
* извлечению и генерации признаков для классификации
 
* извлечению и генерации признаков для классификации
* опыт в использовании алгоритмов машинного обучения
+
 
 +
* опыт в использовании алгоритмов машинного обучения  
 +
 
 
* методам оценки результатов классификации
 
* методам оценки результатов классификации
  
Строка 25: Строка 31:
 
=== Какие будут использоваться технологии? ===
 
=== Какие будут использоваться технологии? ===
 
* Язык программирования Python
 
* Язык программирования Python
 +
 
* библиотеки NLTK, sklearn, numpy, PyMorphy
 
* библиотеки NLTK, sklearn, numpy, PyMorphy
  
 
=== Темы вводных занятий ===
 
=== Темы вводных занятий ===
# Работа с вебом и API социальных сетей
+
* Работа с вебом и API социальных сетей
# Алгоритмы классификации
+
 
# Введение в автоматическую обработку текстов
+
* Алгоритмы классификации
 +
 
 +
* Введение в автоматическую обработку текстов
  
 
=== Направления развития ===
 
=== Направления развития ===
 
* Визуализация исходной выборки и результатов
 
* Визуализация исходной выборки и результатов
 +
 
* Визуализация работы классификатора
 
* Визуализация работы классификатора
 +
 
* Извлечения тем из сообщений и визуализация статистики по различным демографическим категориям ("облако" самых популярных слов/тем для разных категорий)
 
* Извлечения тем из сообщений и визуализация статистики по различным демографическим категориям ("облако" самых популярных слов/тем для разных категорий)
  
 
=== Критерии оценки ===
 
=== Критерии оценки ===
* 4-5 - работающий классификатор с минимальным составом признаков
+
4-5: работающий классификатор с минимальным составом признаков
* 6-7 - работающий классификатор, результат которого превышает baseline (результат заранее подготовленного примитивного классификатора)
+
 
* 8-9 - классификатор, побивающий baseline, с визуализацией данных
+
6-7: работающий классификатор, результат которого превышает baseline (результат заранее подготовленного примитивного классификатора)
* 10 - классификатор, побивающий baseline, с визуализацией самых популярных слов/тем по различным категориям
+
 
 +
8-9: классификатор, побивающий baseline, с визуализацией данных или классификатор с простым веб-интерфейсом
 +
 
 +
10: классификатор, побивающий baseline, с визуализацией самых популярных слов/тем по различным категориям
  
 
=== Ориентировочное расписание занятий ===
 
=== Ориентировочное расписание занятий ===
 
Уточняется
 
Уточняется

Текущая версия на 16:24, 28 июля 2017

Ментор Моисеев Георгий, Наседкин Александр
Учебный семестр Весна 2016
Учебный курс 1-й курс
Максимальное количество студентов, выбравших проект: 5



Что это за проект?

Проект предполагает определение демографических атрибутов пользователя (пол, возраст, уровень образования) по тексту его комментариев в социальных сетях. Участникам предлагается выбрать интересующий их атрибут и разработать классификатор на основе алгоритмов машинного обучения определяющий выбранный атрибут. Проект может быть полезен для проведения социологических исследований, выявления каких-либо тенденций и мнений в социальных сетях.

Чему вы научитесь?

  • Писать надежный и понятный код (будет проводиться code review)
  • методам обработке текста
  • извлечению и генерации признаков для классификации
  • опыт в использовании алгоритмов машинного обучения
  • методам оценки результатов классификации

Какие начальные требования?

Основы языка программирования Python

Какие будут использоваться технологии?

  • Язык программирования Python
  • библиотеки NLTK, sklearn, numpy, PyMorphy

Темы вводных занятий

  • Работа с вебом и API социальных сетей
  • Алгоритмы классификации
  • Введение в автоматическую обработку текстов

Направления развития

  • Визуализация исходной выборки и результатов
  • Визуализация работы классификатора
  • Извлечения тем из сообщений и визуализация статистики по различным демографическим категориям ("облако" самых популярных слов/тем для разных категорий)

Критерии оценки

4-5: работающий классификатор с минимальным составом признаков

6-7: работающий классификатор, результат которого превышает baseline (результат заранее подготовленного примитивного классификатора)

8-9: классификатор, побивающий baseline, с визуализацией данных или классификатор с простым веб-интерфейсом

10: классификатор, побивающий baseline, с визуализацией самых популярных слов/тем по различным категориям

Ориентировочное расписание занятий

Уточняется