Утилита для очистки текстов от обсценной лексики (проект) — различия между версиями
(→Чему вы научитесь?) |
(→Критерии оценки) |
||
Строка 37: | Строка 37: | ||
=== Критерии оценки === | === Критерии оценки === | ||
− | 4-5: очистка по словарю и индексирование | + | 4-5: очистка по словарю и индексирование<br /> |
− | 6-7: + использованием лемматизации | + | 6-7: + использованием лемматизации<br /> |
− | 8-10: + разработка экспериментальной площадки для оценки точности-полноты работы на произвольном тексте | + | 8-10: + разработка экспериментальной площадки для оценки точности-полноты работы на произвольном тексте<br /> |
Версия 17:23, 3 декабря 2014
Ментор | Шестаков Андрей |
Учебный семестр | Весна 2015 |
Учебный курс | 1-й курс |
Что это за проект?
SketchEngine - это сервис обработки текстовых корпусов, который показывает наиболее типичные перепредставленные и недопредставленные пары слов, синтаксически связанных в предложении. Для того, чтобы сервис выдавал осмысленные и приемлемые результаты к исходному корпусу языка предъявляется ряд требований.
В частности, для того, чтобы результаты данного сервиса приносили пользу лицам младше 18 лет, тексты корпуса должны быть отчищены от обсценной лексики.
В рамках данного проекта предлагается разработать программу, позволяющую анализировать тексты на предмет наличия в ней мата и другой нецензурной лекции с последующей очисткой.
Чему вы научитесь?
- Освоение ключевых понятий компьютерной лингвистки.
- Методы анализа и обработки текстов.
Какие начальные требования?
- Знание python
- Умение работать с *nix (желательно)
Проект не подразумевает разработку графической оболочки.
Какие будут использоваться технологии?
- python.
- git, github
Темы вводных занятий
Направления развития
Реализованный прототип может быть использован как компонент вышеуказанного web-сервиса.
Критерии оценки
4-5: очистка по словарю и индексирование
6-7: + использованием лемматизации
8-10: + разработка экспериментальной площадки для оценки точности-полноты работы на произвольном тексте