Демографический портрет пользователя (проект) — различия между версиями
(не показано 8 промежуточных версии 3 участников) | |||
Строка 1: | Строка 1: | ||
{{Карточка_проекта | {{Карточка_проекта | ||
|name=демографический портрет пользователя | |name=демографический портрет пользователя | ||
− | |mentor= | + | |mentor=Моисеев Георгий |
|mentor_login={{URLENCODE:Just flare|WIKI}} | |mentor_login={{URLENCODE:Just flare|WIKI}} | ||
+ | |mentor_2=Наседкин Александр | ||
+ | |mentor_login_2={{URLENCODE:Nasedkinav|WIKI}} | ||
|semester=Весна 2016 | |semester=Весна 2016 | ||
|course=1 | |course=1 | ||
Строка 11: | Строка 13: | ||
=== Что это за проект? === | === Что это за проект? === | ||
− | Проект предполагает определение демографических атрибутов пользователя (пол, возраст, уровень образования) по тексту его комментариев. Участникам предлагается выбрать интересующий их атрибут и разработать классификатор на основе алгоритмов машинного обучения определяющий выбранный атрибут. | + | Проект предполагает определение демографических атрибутов пользователя (пол, возраст, уровень образования) по тексту его комментариев в социальных сетях. Участникам предлагается выбрать интересующий их атрибут и разработать классификатор на основе алгоритмов машинного обучения определяющий выбранный атрибут. |
Проект может быть полезен для проведения социологических исследований, выявления каких-либо тенденций и мнений в социальных сетях. | Проект может быть полезен для проведения социологических исследований, выявления каких-либо тенденций и мнений в социальных сетях. | ||
=== Чему вы научитесь? === | === Чему вы научитесь? === | ||
+ | * Писать надежный и понятный код (будет проводиться code review) | ||
* методам обработке текста | * методам обработке текста | ||
+ | |||
* извлечению и генерации признаков для классификации | * извлечению и генерации признаков для классификации | ||
− | * опыт в использовании алгоритмов машинного обучения | + | |
+ | * опыт в использовании алгоритмов машинного обучения | ||
+ | |||
* методам оценки результатов классификации | * методам оценки результатов классификации | ||
Строка 25: | Строка 31: | ||
=== Какие будут использоваться технологии? === | === Какие будут использоваться технологии? === | ||
* Язык программирования Python | * Язык программирования Python | ||
+ | |||
* библиотеки NLTK, sklearn, numpy, PyMorphy | * библиотеки NLTK, sklearn, numpy, PyMorphy | ||
=== Темы вводных занятий === | === Темы вводных занятий === | ||
− | + | * Работа с вебом и API социальных сетей | |
− | + | ||
− | + | * Алгоритмы классификации | |
+ | |||
+ | * Введение в автоматическую обработку текстов | ||
=== Направления развития === | === Направления развития === | ||
* Визуализация исходной выборки и результатов | * Визуализация исходной выборки и результатов | ||
+ | |||
* Визуализация работы классификатора | * Визуализация работы классификатора | ||
+ | |||
* Извлечения тем из сообщений и визуализация статистики по различным демографическим категориям ("облако" самых популярных слов/тем для разных категорий) | * Извлечения тем из сообщений и визуализация статистики по различным демографическим категориям ("облако" самых популярных слов/тем для разных категорий) | ||
=== Критерии оценки === | === Критерии оценки === | ||
− | + | 4-5: работающий классификатор с минимальным составом признаков | |
− | + | ||
− | + | 6-7: работающий классификатор, результат которого превышает baseline (результат заранее подготовленного примитивного классификатора) | |
− | + | ||
+ | 8-9: классификатор, побивающий baseline, с визуализацией данных или классификатор с простым веб-интерфейсом | ||
+ | |||
+ | 10: классификатор, побивающий baseline, с визуализацией самых популярных слов/тем по различным категориям | ||
=== Ориентировочное расписание занятий === | === Ориентировочное расписание занятий === | ||
Уточняется | Уточняется |
Текущая версия на 16:24, 28 июля 2017
Ментор | Моисеев Георгий, Наседкин Александр |
Учебный семестр | Весна 2016 |
Учебный курс | 1-й курс |
Максимальное количество студентов, выбравших проект: 5 | |
Что это за проект?
Проект предполагает определение демографических атрибутов пользователя (пол, возраст, уровень образования) по тексту его комментариев в социальных сетях. Участникам предлагается выбрать интересующий их атрибут и разработать классификатор на основе алгоритмов машинного обучения определяющий выбранный атрибут. Проект может быть полезен для проведения социологических исследований, выявления каких-либо тенденций и мнений в социальных сетях.
Чему вы научитесь?
- Писать надежный и понятный код (будет проводиться code review)
- методам обработке текста
- извлечению и генерации признаков для классификации
- опыт в использовании алгоритмов машинного обучения
- методам оценки результатов классификации
Какие начальные требования?
Основы языка программирования Python
Какие будут использоваться технологии?
- Язык программирования Python
- библиотеки NLTK, sklearn, numpy, PyMorphy
Темы вводных занятий
- Работа с вебом и API социальных сетей
- Алгоритмы классификации
- Введение в автоматическую обработку текстов
Направления развития
- Визуализация исходной выборки и результатов
- Визуализация работы классификатора
- Извлечения тем из сообщений и визуализация статистики по различным демографическим категориям ("облако" самых популярных слов/тем для разных категорий)
Критерии оценки
4-5: работающий классификатор с минимальным составом признаков
6-7: работающий классификатор, результат которого превышает baseline (результат заранее подготовленного примитивного классификатора)
8-9: классификатор, побивающий baseline, с визуализацией данных или классификатор с простым веб-интерфейсом
10: классификатор, побивающий baseline, с визуализацией самых популярных слов/тем по различным категориям
Ориентировочное расписание занятий
Уточняется