В Питере – пить (интерактивный путеводитель) (проект) — различия между версиями

Материал из Wiki - Факультет компьютерных наук
Перейти к: навигация, поиск
(Новая страница, с помощью формы Новый_проект)
 
 
(не показано 7 промежуточных версии ещё одного участника)
Строка 6: Строка 6:
 
|course=2
 
|course=2
 
|summer=
 
|summer=
|number_of_students=3
+
|number_of_students=4
 
|categorize=yes
 
|categorize=yes
 
}}
 
}}
  
 
=== Что это за проект? ===
 
=== Что это за проект? ===
Существует множество ресурсов для туристов, рассказывающих, в какой стране или в каком городе / районе / или на какой улице и что можно сделать или посмотреть  (Afisha, the Village). Этот проект должен помочь собрать информацию из разных ресурсов, извлечь самые интересные и ценные рекомендации и представить их в каком-нибудь симпатичном виде, например, в виде интерактивной карты города, на которой, при нажатии на здание / улицу, всплывает окошко с рекомендациями.   
+
Существует множество ресурсов для туристов, рассказывающих, в какой стране или в каком городе / районе / или на какой улице и что можно сделать или посмотреть  (Afisha, the Village). Этот проект должен помочь собрать информацию из разных ресурсов, извлечь самые интересные и ценные рекомендации и представить их в каком-нибудь симпатичном виде, например, в виде интерактивной карты города, на которой, при нажатии на здание / улицу, всплывает окошко с рекомендациями.  В некоторых путеводителях дают последовательности рекомендаций (сначала надо посетить музей,  а потом кофейню, например), такие рекомендации тоже можно красиво визуализировать.
С технической стороны проект состоит из двух частей: первая часть посвящена сбору текстов, их обработке и извлечению из них интересных рекомендаций, вторая – непосредственно визуализации.
+
Есть и другой сценарий проекта по примерно такой же тематике и логике: помимо путеводителей, есть и рассказы людей, где они были и что они делали (например, форум Винского). Из этих рассказов можно извлекать упоминания мест, в которых люди были и тоже симпатичным образом рисовать их перемещения по карте.
 +
 
 +
Оба сценария можно усложнить: в принципе, речь идет о последовательностях посещаемых мест. Эти последовательности можно проанализировать с помощью методов анализа частых подпоследовательностей и выявить закономерности в поведении людей и их рекомендаций.
  
 
=== Чему вы научитесь? ===
 
=== Чему вы научитесь? ===
1) обрабатывать тексты и извлекать из них интересные факты;
+
# обрабатывать тексты и извлекать из них интересные факты;
2) рисовать интерактивные визуализации.
+
# рисовать интерактивные визуализации;
 +
# работать с картами и библиотеками для рисования карт;
 +
# использовать классические методы майнинга данных (поиск частых подпоследовательностей).
  
 
=== Какие начальные требования? ===
 
=== Какие начальные требования? ===
Строка 29: Строка 33:
  
 
=== Темы вводных занятий ===
 
=== Темы вводных занятий ===
Несколько семинаров по двум направлениям: работа с русскоязычными текстами и визуализация данных.
+
Несколько семинаров по трем направлениям: работа с русскоязычными текстами, визуализация данных и майнинг данных.
  
 
=== Направления развития ===
 
=== Направления развития ===
Строка 35: Строка 39:
  
 
=== Критерии оценки ===
 
=== Критерии оценки ===
tba
+
4-5: собран корпус текстов
 +
 
 +
6: выделены посещаемые объекты
 +
 
 +
7: разрешена кореференция объектов (Парк Горького = Парк культуры)
 +
 
 +
8: построена визуализация
 +
 
 +
9: построена красивая интерактивная визуализация и / или работает выделение частых подпоследовательностей
 +
 
 +
10: построена красивая интерактивная визуализация и работает выделение частых подпоследовательностей
  
 
=== Ориентировочное расписание занятий ===
 
=== Ориентировочное расписание занятий ===
ВТ 16:30- 18:00 (Екатерина)
+
ВТ 16:30 - 18:00 (Екатерина)

Текущая версия на 17:08, 27 октября 2017

Ментор Андрей Паринов, Екатерина Черняк
Учебный семестр Осень 2017
Учебный курс 2-й курс
Максимальное количество студентов, выбравших проект: 4



Что это за проект?

Существует множество ресурсов для туристов, рассказывающих, в какой стране или в каком городе / районе / или на какой улице и что можно сделать или посмотреть (Afisha, the Village). Этот проект должен помочь собрать информацию из разных ресурсов, извлечь самые интересные и ценные рекомендации и представить их в каком-нибудь симпатичном виде, например, в виде интерактивной карты города, на которой, при нажатии на здание / улицу, всплывает окошко с рекомендациями. В некоторых путеводителях дают последовательности рекомендаций (сначала надо посетить музей, а потом кофейню, например), такие рекомендации тоже можно красиво визуализировать. Есть и другой сценарий проекта по примерно такой же тематике и логике: помимо путеводителей, есть и рассказы людей, где они были и что они делали (например, форум Винского). Из этих рассказов можно извлекать упоминания мест, в которых люди были и тоже симпатичным образом рисовать их перемещения по карте.

Оба сценария можно усложнить: в принципе, речь идет о последовательностях посещаемых мест. Эти последовательности можно проанализировать с помощью методов анализа частых подпоследовательностей и выявить закономерности в поведении людей и их рекомендаций.

Чему вы научитесь?

  1. обрабатывать тексты и извлекать из них интересные факты;
  2. рисовать интерактивные визуализации;
  3. работать с картами и библиотеками для рисования карт;
  4. использовать классические методы майнинга данных (поиск частых подпоследовательностей).

Какие начальные требования?

  • python, scrapy, lxml
  • (опционально) умение работать с русскоязычными текстами
  • (опционально) библиотеки для визуализации, например, d3

Какие будут использоваться технологии?

  • python, scrapy, lxml
  • nltk и mystem
  • d3

Темы вводных занятий

Несколько семинаров по трем направлениям: работа с русскоязычными текстами, визуализация данных и майнинг данных.

Направления развития

Можно сделать таргетированные карты: например, карты для туристов с детьми, карты для тех, кто в командировке и т.д.. Для этого нужна будет более продвинутая обработка текстов.

Критерии оценки

4-5: собран корпус текстов

6: выделены посещаемые объекты

7: разрешена кореференция объектов (Парк Горького = Парк культуры)

8: построена визуализация

9: построена красивая интерактивная визуализация и / или работает выделение частых подпоследовательностей

10: построена красивая интерактивная визуализация и работает выделение частых подпоследовательностей

Ориентировочное расписание занятий

ВТ 16:30 - 18:00 (Екатерина)