Система для извлечения структурированной информации из web-сайтов
Компания | ВШЭ |
Учебный семестр | Осень 2018 |
Учебный курс | 4-й курс |
Максимальное количество студентов, выбравших проект: ? | |
Содержание |
Описание проекта
В рамках проекта студентам предлагается разработать сервис для извлечения структурированной информации из web-сайтов. Сейчас все крупные известные решения парсинга информации с сайтов требуют написания кода. В данном сервисе пользователь сможет указать мышкой элементы html-страницы, содержащие нужные пользователю данные. После чего система формирует правила, которые применяет к указанным веб-страницам сайта, и возвращает извлеченные данные. Требуется также реализовать способы доставки свежих данных и методы автоматического выявления изменений структуры сайтов, влияющих на качество извлекаемой информации.
Задачи
Разработать язык описания структурированной информации на web-сайтах Разработать интерпретатор данного языка (парсер) Разработать эффективные алгоритмы по сбору и обработке html-страниц Настроить инфраструктуру для использования сервиса Реализовать методы автоматического выявления изменений структуры сайтов
Контакты
Агеев Михаил Сергеевич mageev@hse.ru