Публикации (проект)

Материал из Wiki - Факультет компьютерных наук
Перейти к: навигация, поиск
Ментор Матвеев Дмитрий
Учебный семестр Осень 2017
Учебный курс 2-й курс
Максимальное количество студентов, выбравших проект: 4



Что это за проект?

База данных научных публикаций, агрегирующая выгрузки из трёх самых известных источников: Web of Science, Scopus, РИНЦ. + Аналитика нормализованных данных: формирование отчётов, отрисовка диаграмм и создание слайдов для презентаций в разрезе всех факультетов ВШЭ.

Чему вы научитесь?

  • Работа с нечёткими данными, их сведение и нормализация
  • Создание законченной цепочки аналитики: от первичных данных – до визуализации прогресса университета и факультетов

Какие начальные требования?

  • Знание основ баз данных
  • Язык программирования любой, предпочтителен python

Какие будут использоваться технологии?

TBA

Из каких частей состоит проект?

  • Агрегация трёх реестров публикаций в единую базу данных
  • Нормализация данных и удаление нечётких дубликатов
  • Расчёт показателей на основе имеющихся данных
  • Формирование готового отчёта на основе показателей
  • Визуализация данных с гибкими настройками и различными срезами

Темы вводных занятий

  • Постановка задачи: Этап 1. Специфика библиометрических систем WoS, Scopus, РИНЦ
  • Постановка задачи: Этап 2. Работа с нечёткими дубликатами
  • Постановка задачи: Этап 3. Формирование отчётов и презентаций

Направления развития

  • Агрегация, проверка и нормализация данных
  • Визуализация данных

Критерии оценки

Минимальные требования (на 4-5):

  • Корректное сведение трёх баз данных в одну
  • Нормализация и пополнение данных

Требования на 6-7:

  • Обнаружение и сведение дубликатов

Требования на 8-9:

  • Расчёт показателей с возможностью внесения новых показателей
  • Формирование отчёта

Требования на 10:

  • Автоматизированное формирование готовой презентации

Ориентировочное расписание занятий

TBA