Загрузка данных о научных сообществах и научных исследованиях из "карты науки" и аналогичных ресурсов
Ментор | Ильвовский Дмитрий |
Учебный семестр | Весна 2016 |
Учебный курс | 1-й курс |
Проект можно развивать на летней практике | |
Максимальное количество студентов, выбравших проект: 5 | |
Что это за проект?
Проект посвящен загрузке, обработке и анализу данных о научных сообществах. Входные данные для анализа: Map of Science("карты науки") и другие аналогичные ресурсы. Надо будет разобраться с тем, как хранятся данные на этих ресурсах, какие вообще данные там есть, какие средства доступа и загрузки предоставлены авторами ресурса. Интересны данные о статьях, научных интересах ученых, научных сообществах, цитировании и т.д. Результатом должна стать настраиваемая утилита загрузки данных. В идеале — интегрированная со средствами анализа, построенными в рамках другого проекта. Скорее всего, проект будет осуществляться в рамках взаимодействия с американскими исследователями.
Чему вы научитесь?
Анализировать реальные базы знаний, работать с реальными данными о жизни научных сообществ, извлекать полезную и новую информацию о научной работе. Взаимодействовать с другими ребятами, а также (вполне возможно) — с иностранными исследователями.
Какие начальные требования?
Желательно знание хотя бы одного языка программирования высокого уровня (Python, Java, C#), приветствуется владение основами работы с реляционными СУБД. Нужно владеть английским хотя бы на среднем уровне.
Какие будут использоваться технологии?
Почти наверняка какие-либо СУБД (SharePoint, Oracle, Posgress), среды программирования, возможно, поисковое API.
Темы вводных занятий
- Работа с API
*Стандарты хранения текстовых данных
Направления развития
Можно делать анализ загружаемой информации, оптимизировать алгоритм загрузки, делать подгрузку новой информации при обновлении ресурса.
Критерии оценки
4: загрузка публикаций по одной произовольной теме из одного источника (WoS, Scopus, archive.org)
+1 балл: +1 источник
+2 балла: все три источника
+2 балла: симпатичный UI
+2 балла: загрузка основных данных в БД или в другое хранилище информации с проработанной структурой
+2 балла: дополнительный анализ или визуализация
Ориентировочное расписание занятий
ПН-ПТ в середине дня по согласованию со студентами. Также доступен по Skype.