Утилита для чистки корпуса от дубликатов (проект) — различия между версиями
Katya (обсуждение | вклад) (→Темы вводных занятий) |
Katya (обсуждение | вклад) (→Чему вы научитесь?) |
||
Строка 16: | Строка 16: | ||
=== Чему вы научитесь? === | === Чему вы научитесь? === | ||
− | # | + | # Алгоритм шинглирования |
− | # Методы | + | # Методы обработки текстов |
+ | ## Удаление стоп-слов | ||
+ | ## Лемматизация (приведение слова к начальной форме) | ||
+ | ## Морфологическая разметка (определение части речи слова) | ||
=== Какие начальные требования? === | === Какие начальные требования? === |
Версия 01:07, 4 декабря 2014
Ментор | Шестаков Андрей |
Учебный семестр | Весна 2015 |
Учебный курс | 1-й курс |
Что это за проект?
SketchEngine - это сервис обработки текстовых корпусов, который показывает наиболее типичные перепредставленные и недопредставленные пары слов, синтаксически связанных в предложении. Для того, чтобы сервис выдавал осмысленные и приемлемые результаты, к исходному корпусу языка предъявляется ряд требований.
В частности, корпус должен быть сбалансирован, то есть не содержать текстов-дубликатов. Это необходимо, например, для более точной оценки представленности речевых оборотов.
Чему вы научитесь?
- Алгоритм шинглирования
- Методы обработки текстов
- Удаление стоп-слов
- Лемматизация (приведение слова к начальной форме)
- Морфологическая разметка (определение части речи слова)
Какие начальные требования?
- Знание python
- Умение работать с *nix (желательно)
Какие будут использоваться технологии?
- python
- git, github
- MongoDB (возможно)
Темы вводных занятий
- Алгоритм шинглирования
- Способы представления графов (матрица /список смежности)
- Поиск компонент связности
Направления развития
Реализованный прототип может быть использован как компонент вышеуказанного web-сервиса.
Критерии оценки
4-5: оценка степени сходства двух документов
6-7: + построение графа сходства на множестве документов и наивный алгоритм удаления дубликатов
8-10: + усложненный алгоритм удаления дубликатов