Утилита для очистки текстов от обсценной лексики (проект) — различия между версиями
Katya (обсуждение | вклад) (→Какие будут использоваться технологии?) |
Katya (обсуждение | вклад) (→Чему вы научитесь?) |
||
Строка 17: | Строка 17: | ||
=== Чему вы научитесь? === | === Чему вы научитесь? === | ||
− | + | #Основные задачи автоматической обработки текстов | |
− | #Токенизация (разбиение текста на слова и определение границ предложения) | + | #Некоторые методы автоматической обработки текстов |
− | #Морфологический анализ (определение частей речи) | + | ##Токенизация (разбиение текста на слова и определение границ предложения) |
+ | ##Лемматизация (привидение слова к начальной форме) | ||
+ | ##Морфологический анализ (определение частей речи) | ||
=== Какие начальные требования? === | === Какие начальные требования? === |
Версия 00:53, 4 декабря 2014
Ментор | Шестаков Андрей |
Учебный семестр | Весна 2015 |
Учебный курс | 1-й курс |
Что это за проект?
SketchEngine - это сервис обработки текстовых корпусов, который показывает наиболее типичные перепредставленные и недопредставленные пары слов, синтаксически связанных в предложении. Для того, чтобы сервис выдавал осмысленные и приемлемые результаты, к исходному корпусу языка предъявляется ряд требований.
В частности, для того, чтобы результаты данного сервиса приносили пользу лицам младше 18 лет, тексты корпуса должны быть отчищены от обсценной лексики.
В рамках данного проекта предлагается разработать программу, позволяющую очищать тексты от матерной, нецензурной мата и другой нецензурной лексики.
Чему вы научитесь?
- Основные задачи автоматической обработки текстов
- Некоторые методы автоматической обработки текстов
- Токенизация (разбиение текста на слова и определение границ предложения)
- Лемматизация (привидение слова к начальной форме)
- Морфологический анализ (определение частей речи)
Какие начальные требования?
- Знание python
- Умение работать с *nix (желательно)
Проект не подразумевает разработку графической оболочки.
Какие будут использоваться технологии?
- python
- NLTK
- gensim
- pymorphy2
Темы вводных занятий
Направления развития
Реализованный прототип может быть использован как компонент вышеуказанного web-сервиса.
Критерии оценки
4-5: очистка по словарю и индексирование
6-7: + использованием лемматизации
8-10: + разработка экспериментальной площадки для оценки точности-полноты работы на произвольном тексте