В Питере – пить (интерактивный путеводитель) (проект) — различия между версиями
Katya (обсуждение | вклад) (→Что это за проект?) |
|||
(не показано 6 промежуточных версии ещё одного участника) | |||
Строка 6: | Строка 6: | ||
|course=2 | |course=2 | ||
|summer= | |summer= | ||
− | |number_of_students= | + | |number_of_students=4 |
|categorize=yes | |categorize=yes | ||
}} | }} | ||
Строка 17: | Строка 17: | ||
=== Чему вы научитесь? === | === Чему вы научитесь? === | ||
− | + | # обрабатывать тексты и извлекать из них интересные факты; | |
− | + | # рисовать интерактивные визуализации; | |
+ | # работать с картами и библиотеками для рисования карт; | ||
+ | # использовать классические методы майнинга данных (поиск частых подпоследовательностей). | ||
=== Какие начальные требования? === | === Какие начальные требования? === | ||
Строка 31: | Строка 33: | ||
=== Темы вводных занятий === | === Темы вводных занятий === | ||
− | Несколько семинаров по | + | Несколько семинаров по трем направлениям: работа с русскоязычными текстами, визуализация данных и майнинг данных. |
=== Направления развития === | === Направления развития === | ||
Строка 37: | Строка 39: | ||
=== Критерии оценки === | === Критерии оценки === | ||
− | + | 4-5: собран корпус текстов | |
+ | |||
+ | 6: выделены посещаемые объекты | ||
+ | |||
+ | 7: разрешена кореференция объектов (Парк Горького = Парк культуры) | ||
+ | |||
+ | 8: построена визуализация | ||
+ | |||
+ | 9: построена красивая интерактивная визуализация и / или работает выделение частых подпоследовательностей | ||
+ | |||
+ | 10: построена красивая интерактивная визуализация и работает выделение частых подпоследовательностей | ||
=== Ориентировочное расписание занятий === | === Ориентировочное расписание занятий === | ||
− | ВТ 16:30- 18:00 (Екатерина) | + | ВТ 16:30 - 18:00 (Екатерина) |
Текущая версия на 17:08, 27 октября 2017
Ментор | Андрей Паринов, Екатерина Черняк |
Учебный семестр | Осень 2017 |
Учебный курс | 2-й курс |
Максимальное количество студентов, выбравших проект: 4 | |
Что это за проект?
Существует множество ресурсов для туристов, рассказывающих, в какой стране или в каком городе / районе / или на какой улице и что можно сделать или посмотреть (Afisha, the Village). Этот проект должен помочь собрать информацию из разных ресурсов, извлечь самые интересные и ценные рекомендации и представить их в каком-нибудь симпатичном виде, например, в виде интерактивной карты города, на которой, при нажатии на здание / улицу, всплывает окошко с рекомендациями. В некоторых путеводителях дают последовательности рекомендаций (сначала надо посетить музей, а потом кофейню, например), такие рекомендации тоже можно красиво визуализировать. Есть и другой сценарий проекта по примерно такой же тематике и логике: помимо путеводителей, есть и рассказы людей, где они были и что они делали (например, форум Винского). Из этих рассказов можно извлекать упоминания мест, в которых люди были и тоже симпатичным образом рисовать их перемещения по карте.
Оба сценария можно усложнить: в принципе, речь идет о последовательностях посещаемых мест. Эти последовательности можно проанализировать с помощью методов анализа частых подпоследовательностей и выявить закономерности в поведении людей и их рекомендаций.
Чему вы научитесь?
- обрабатывать тексты и извлекать из них интересные факты;
- рисовать интерактивные визуализации;
- работать с картами и библиотеками для рисования карт;
- использовать классические методы майнинга данных (поиск частых подпоследовательностей).
Какие начальные требования?
- python, scrapy, lxml
- (опционально) умение работать с русскоязычными текстами
- (опционально) библиотеки для визуализации, например, d3
Какие будут использоваться технологии?
- python, scrapy, lxml
- nltk и mystem
- d3
Темы вводных занятий
Несколько семинаров по трем направлениям: работа с русскоязычными текстами, визуализация данных и майнинг данных.
Направления развития
Можно сделать таргетированные карты: например, карты для туристов с детьми, карты для тех, кто в командировке и т.д.. Для этого нужна будет более продвинутая обработка текстов.
Критерии оценки
4-5: собран корпус текстов
6: выделены посещаемые объекты
7: разрешена кореференция объектов (Парк Горького = Парк культуры)
8: построена визуализация
9: построена красивая интерактивная визуализация и / или работает выделение частых подпоследовательностей
10: построена красивая интерактивная визуализация и работает выделение частых подпоследовательностей
Ориентировочное расписание занятий
ВТ 16:30 - 18:00 (Екатерина)