Утилита для чистки корпуса от дубликатов (проект) — различия между версиями
Katya (обсуждение | вклад) (→Критерии оценки) |
|||
(не показаны 4 промежуточные версии ещё одного участника) | |||
Строка 7: | Строка 7: | ||
|summer= | |summer= | ||
|categorize=yes | |categorize=yes | ||
+ | |is_archived=yes | ||
}} | }} | ||
Строка 12: | Строка 13: | ||
[http://www.sketchengine.co.uk/ SketchEngine] - это сервис обработки текстовых корпусов, который показывает наиболее типичные перепредставленные и недопредставленные пары слов, синтаксически связанных в предложении. Для того, чтобы сервис выдавал осмысленные и приемлемые результаты, к исходному корпусу языка предъявляется ряд требований. | [http://www.sketchengine.co.uk/ SketchEngine] - это сервис обработки текстовых корпусов, который показывает наиболее типичные перепредставленные и недопредставленные пары слов, синтаксически связанных в предложении. Для того, чтобы сервис выдавал осмысленные и приемлемые результаты, к исходному корпусу языка предъявляется ряд требований. | ||
− | В частности, корпус должен быть | + | В частности, корпус должен быть сбалансирован, то есть не содержать текстов-дубликатов. |
Это необходимо, например, для более точной оценки представленности речевых оборотов. | Это необходимо, например, для более точной оценки представленности речевых оборотов. | ||
=== Чему вы научитесь? === | === Чему вы научитесь? === | ||
− | # | + | # Алгоритм шинглирования |
− | # Методы | + | # Методы обработки текстов |
+ | ## Удаление стоп-слов | ||
+ | ## Лемматизация (приведение слова к начальной форме) | ||
+ | ## Морфологическая разметка (определение части речи слова) | ||
=== Какие начальные требования? === | === Какие начальные требования? === | ||
Строка 25: | Строка 29: | ||
=== Какие будут использоваться технологии? === | === Какие будут использоваться технологии? === | ||
* python | * python | ||
− | * | + | * NLTK |
+ | * gensim | ||
+ | * binascii | ||
+ | * pymorphy2 / mystem | ||
* MongoDB (возможно) | * MongoDB (возможно) | ||
=== Темы вводных занятий === | === Темы вводных занятий === | ||
− | + | # Алгоритм шинглирования | |
+ | # Способы представления графов (матрица /список смежности) | ||
+ | # Поиск компонент связности | ||
=== Направления развития === | === Направления развития === |
Текущая версия на 10:53, 20 октября 2015
Ментор | Шестаков Андрей |
Учебный семестр | Весна 2015 |
Учебный курс | 1-й курс |
Внимание! Данный проект находится в архиве и реализован не будет. |
Что это за проект?
SketchEngine - это сервис обработки текстовых корпусов, который показывает наиболее типичные перепредставленные и недопредставленные пары слов, синтаксически связанных в предложении. Для того, чтобы сервис выдавал осмысленные и приемлемые результаты, к исходному корпусу языка предъявляется ряд требований.
В частности, корпус должен быть сбалансирован, то есть не содержать текстов-дубликатов. Это необходимо, например, для более точной оценки представленности речевых оборотов.
Чему вы научитесь?
- Алгоритм шинглирования
- Методы обработки текстов
- Удаление стоп-слов
- Лемматизация (приведение слова к начальной форме)
- Морфологическая разметка (определение части речи слова)
Какие начальные требования?
- Знание python
- Умение работать с *nix (желательно)
Какие будут использоваться технологии?
- python
- NLTK
- gensim
- binascii
- pymorphy2 / mystem
- MongoDB (возможно)
Темы вводных занятий
- Алгоритм шинглирования
- Способы представления графов (матрица /список смежности)
- Поиск компонент связности
Направления развития
Реализованный прототип может быть использован как компонент вышеуказанного web-сервиса.
Критерии оценки
4-5: оценка степени сходства двух документов
6-7: + построение графа сходства на множестве документов и наивный алгоритм удаления дубликатов
8-10: + усложненный алгоритм удаления дубликатов