Система для извлечения структурированной информации из web-сайтов

Материал из Wiki - Факультет компьютерных наук
Версия от 19:49, 16 октября 2018; Aapoludnitsin (обсуждение | вклад)

(разн.) ← Предыдущая | Текущая версия (разн.) | Следующая → (разн.)
Перейти к: навигация, поиск
Компания ВШЭ
Учебный семестр Осень 2018
Учебный курс 4-й курс
Максимальное количество студентов, выбравших проект: ?



Описание проекта

В рамках проекта студентам предлагается разработать сервис для извлечения структурированной информации из web-сайтов. Сейчас все крупные известные решения парсинга информации с сайтов требуют написания кода. В данном сервисе пользователь сможет указать мышкой элементы html-страницы, содержащие нужные пользователю данные. После чего система формирует правила, которые применяет к указанным веб-страницам сайта, и возвращает извлеченные данные. Требуется также реализовать способы доставки свежих данных и методы автоматического выявления изменений структуры сайтов, влияющих на качество извлекаемой информации.

Задачи

Разработать язык описания структурированной информации на web-сайтах Разработать интерпретатор данного языка (парсер) Разработать эффективные алгоритмы по сбору и обработке html-страниц Настроить инфраструктуру для использования сервиса Реализовать методы автоматического выявления изменений структуры сайтов

Контакты

Агеев Михаил Сергеевич mageev@hse.ru