Публикации (проект)
Материал из Wiki - Факультет компьютерных наук
Ментор | Матвеев Дмитрий |
Учебный семестр | Осень 2017 |
Учебный курс | 2-й курс |
Максимальное количество студентов, выбравших проект: 4 | |
Что это за проект?
База данных научных публикаций, агрегирующая выгрузки из трёх самых известных источников: Web of Science, Scopus, РИНЦ. + Аналитика нормализованных данных: формирование отчётов, отрисовка диаграмм и создание слайдов для презентаций в разрезе всех факультетов ВШЭ.
Чему вы научитесь?
- Работа с нечёткими данными, их сведение и нормализация
- Создание законченной цепочки аналитики: от первичных данных – до визуализации прогресса университета и факультетов
Какие начальные требования?
- Знание основ баз данных
- Язык программирования любой, предпочтителен python
Какие будут использоваться технологии?
TBA
Из каких частей состоит проект?
- Агрегация трёх реестров публикаций в единую базу данных
- Нормализация данных и удаление нечётких дубликатов
- Расчёт показателей на основе имеющихся данных
- Формирование готового отчёта на основе показателей
- Визуализация данных с гибкими настройками и различными срезами
Темы вводных занятий
- Постановка задачи: Этап 1. Специфика библиометрических систем WoS, Scopus, РИНЦ
- Постановка задачи: Этап 2. Работа с нечёткими дубликатами
- Постановка задачи: Этап 3. Формирование отчётов и презентаций
Направления развития
- Агрегация, проверка и нормализация данных
- Визуализация данных
Критерии оценки
Минимальные требования (на 4-5):
- Корректное сведение трёх баз данных в одну
- Нормализация и пополнение данных
Требования на 6-7:
- Обнаружение и сведение дубликатов
Требования на 8-9:
- Расчёт показателей с возможностью внесения новых показателей
- Формирование отчёта
Требования на 10:
- Автоматизированное формирование готовой презентации
Ориентировочное расписание занятий
TBA