What does the Internet think? (проект) — различия между версиями

Материал из Wiki - Факультет компьютерных наук
Перейти к: навигация, поиск
(Какие начальные требования?)
Строка 22: Строка 22:
 
=== Какие начальные требования? ===
 
=== Какие начальные требования? ===
 
* Знание Python
 
* Знание Python
* Знание Google App Engine или другого фреймворка, если есть желание его использовать
+
* Знание Google App Engine или любого фреймворка, если есть желание его использовать
 
* Желание ознакомиться с обработкой текстов и неструктурированных данных
 
* Желание ознакомиться с обработкой текстов и неструктурированных данных
  

Версия 17:22, 18 ноября 2014

Ментор Красавина Алина
Учебный семестр Весна 2015
Учебный курс 1-й курс
Проект можно развивать на летней практике



Что это за проект?

Аналог “What does the Internet think?” Результат - веб-сервис с простейшим интерфейсом (форма отправки запроса, страница ответа), построенный на анализе статей с некоторого сайта (Твиттера или можно взять Кинопоиск - с ним будет проще из-за указанной оценки, дело в том, чтобы спарсить ответ, по большому счету), который говорит о том, как относится интернет-аудитория к какому-то предмету, негативно или позитивно.

Чему вы научитесь?

  • Работе с системами контроля версий
  • Работе с неструктурированными данными
  • Использованию регулярных выражений и библиотек для работы с XML
  • В случае выбора источника со словесными рецензиями - основам работы с естественным языком
  • При разделении задания на несколько частей (например, в случае работы с несколькими сайтами) - возможность поработать в команде;

Какие начальные требования?

  • Знание Python
  • Знание Google App Engine или любого фреймворка, если есть желание его использовать
  • Желание ознакомиться с обработкой текстов и неструктурированных данных

Какие будут использоваться технологии?

  • Github
  • Google App Engine (или любой другой фреймворк на любом другом языке, связанный с БД)

Темы вводных занятий

Направления развития

  • в случае, когда работа ведется со словесной рецензией, имеющей баллы (как на Кинопоиске), надо определять не является ли каждая оценка противоречивой (иногда бывает “позитивный” отзыв с оценкой 1/10), надо уметь такое отличать и как-то реагировать, в зависимости от ситуации (проще - выкинуть, сложнее - анализировать текст)
  • добавление морфологии и словосочетаний в запрос и анализ текстов
  • определение имен собственных и совпадающих названий, как бывает часто у фильмов
  • разделение обработки коротких сообщений и больших статей
  • обработка утверждений, содержащих слова, которые могут быть разной полярности, вроде "это кино - мощный отстой"
  • разбор слов по силе выражаемой эмоции - от "не очень понравилось" до "кошмар, смотреть невозможно"

Критерии оценки

"удовл": Обрабатывается один сайт, с которого берется числовой рейтинг, ответ - среднее арифметическое

"хор": Обработка сайта с числовым рейтингом, разрешение конфликтов в утверждениях (сообщение с рейтингом 1/10 и текстом - "Отличное кино, очень понравилось.") Или обработка сайта с сообщениями (например, твиттер), можно использовать готовый набранный словарь с негативностью слов

"отл": то же, что и для "хор" с собственными инициативами из направлений развития, использовать хотя бы одну на выбор