Разработка и реализация процедуры выявления похожих строк (летняя практика)


Автор	Хорошевский Владимир Федорович Профиль на сайте ВШЭ Электронная почта
Организация	кафедра ММСА/ФКН/НИУ ВШЭ
Учебный год	2015

Содержание

1 Задание
2 Какие начальные требования?
3 Какие будут использоваться технологии?
4 Какая дополнительная литература понадобится?

Задание

Разработка и реализация процедуры выявления похожих строк. Исходные данные: Текстовый файл, каждая строка которого содержит ФИО человека в следующем формате: Фамилия + пробел + Инициал1 + точка + Инициал2 + точка

Примечания: 1) фрагмент Инициал2 + точка может отсутствовать. 2) В исходном файле могут быть одинаковые строки

Результат работы процедуры: Текстовый файл, строки которого те же, что и у входного файла, но все они упорядочены по убыванию степени похожести.

Какие начальные требования?

Рекомендуемый план исследования: 1) Изучение методов нечеткого сравнения строк. 2) Изучение различных метрик для выявления похожих строк, включая (как минимум) - косинусное расстояние, - расстояние Левенштейна, - расстояние Жаккарда. 3) Выбор 2-х метрик, наиболее подходящих для решения поставленной задачи. 4) Реализация процедур нечеткого сравнения строк для 2-х выбранных метрик. 5) Сравнение полученных результатов. 6) Подготовка отчета, где будут представлены - Постановка задачи. - Теоретическая часть (методы и метрики нечеткого сравнения строк). - Практическая часть (спецификация реализованных алгоритмов). - Экспериментальная часть (сравнение результатов). - Заключение (выводы и рекомендации по использованию разработанных процедур).

Какие будут использоваться технологии?

Процедура должна быть реализована на языке Java или C++

Какая дополнительная литература понадобится?

Разработка и реализация процедуры выявления похожих строк (летняя практика)

Содержание

Задание

Какие начальные требования?

Какие будут использоваться технологии?

Какая дополнительная литература понадобится?

Навигация

Персональные инструменты

Пространства имён

Варианты

Просмотры

Действия

Поиск

Навигация

Инструменты