Утилита для чистки корпуса от дубликатов (проект) — различия между версиями
(Новая страница, с помощью формы Новый_проект) |
Katya (обсуждение | вклад) (→Критерии оценки) |
||
Строка 35: | Строка 35: | ||
=== Критерии оценки === | === Критерии оценки === | ||
− | 4-5: | + | 4-5: оценка степени сходства двух документов<br /> |
6-7: + построение графа сходства на множестве документов и наивный алгоритм удаления дубликатов<br /> | 6-7: + построение графа сходства на множестве документов и наивный алгоритм удаления дубликатов<br /> | ||
− | 8-10: + усложненный алгоритм удаления дубликатов<br /> | + | 8-10: + усложненный алгоритм удаления дубликатов <br /> |
Версия 01:01, 4 декабря 2014
Ментор | Шестаков Андрей |
Учебный семестр | Весна 2015 |
Учебный курс | 1-й курс |
Что это за проект?
SketchEngine - это сервис обработки текстовых корпусов, который показывает наиболее типичные перепредставленные и недопредставленные пары слов, синтаксически связанных в предложении. Для того, чтобы сервис выдавал осмысленные и приемлемые результаты, к исходному корпусу языка предъявляется ряд требований.
В частности, корпус должен быть <<сбалансирован>>, то есть не содержать текстов-дубликатов. Это необходимо, например, для более точной оценки представленности речевых оборотов.
Чему вы научитесь?
- Освоение ключевых понятий компьютерной лингвистки.
- Методы анализа и обработки текстов.
Какие начальные требования?
- Знание python
- Умение работать с *nix (желательно)
Какие будут использоваться технологии?
- python
- git, github
- MongoDB (возможно)
Темы вводных занятий
Направления развития
Реализованный прототип может быть использован как компонент вышеуказанного web-сервиса.
Критерии оценки
4-5: оценка степени сходства двух документов
6-7: + построение графа сходства на множестве документов и наивный алгоритм удаления дубликатов
8-10: + усложненный алгоритм удаления дубликатов