Система для извлечения структурированной информации из web-сайтов — различия между версиями

Материал из Wiki - Факультет компьютерных наук
Перейти к: навигация, поиск
(Новая страница: «{{Карточка_командного_проекта |name=Система для извлечения структурированной информации и…»)
 
(нет различий)

Текущая версия на 19:49, 16 октября 2018

Компания ВШЭ
Учебный семестр Осень 2018
Учебный курс 4-й курс
Максимальное количество студентов, выбравших проект: ?



Описание проекта

В рамках проекта студентам предлагается разработать сервис для извлечения структурированной информации из web-сайтов. Сейчас все крупные известные решения парсинга информации с сайтов требуют написания кода. В данном сервисе пользователь сможет указать мышкой элементы html-страницы, содержащие нужные пользователю данные. После чего система формирует правила, которые применяет к указанным веб-страницам сайта, и возвращает извлеченные данные. Требуется также реализовать способы доставки свежих данных и методы автоматического выявления изменений структуры сайтов, влияющих на качество извлекаемой информации.

Задачи

Разработать язык описания структурированной информации на web-сайтах Разработать интерпретатор данного языка (парсер) Разработать эффективные алгоритмы по сбору и обработке html-страниц Настроить инфраструктуру для использования сервиса Реализовать методы автоматического выявления изменений структуры сайтов

Контакты

Агеев Михаил Сергеевич mageev@hse.ru