Утилита для очистки текстов от обсценной лексики (проект) — различия между версиями
(→Чему вы научитесь?) |
|||
(не показано 15 промежуточных версии 4 участников) | |||
Строка 7: | Строка 7: | ||
|summer= | |summer= | ||
|categorize=yes | |categorize=yes | ||
+ | |is_archived=yes | ||
}} | }} | ||
=== Что это за проект? === | === Что это за проект? === | ||
− | [http://www.sketchengine.co.uk/ SketchEngine] - это сервис обработки текстовых корпусов, который показывает наиболее типичные перепредставленные и недопредставленные пары слов, синтаксически связанных в предложении. Для того, чтобы сервис выдавал осмысленные и приемлемые результаты к исходному корпусу языка предъявляется ряд требований. | + | [http://www.sketchengine.co.uk/ SketchEngine] - это сервис обработки текстовых корпусов, который показывает наиболее типичные перепредставленные и недопредставленные пары слов, синтаксически связанных в предложении. Для того, чтобы сервис выдавал осмысленные и приемлемые результаты, к исходному корпусу языка предъявляется ряд требований. |
В частности, для того, чтобы результаты данного сервиса приносили пользу лицам младше 18 лет, тексты корпуса должны быть отчищены от обсценной лексики. | В частности, для того, чтобы результаты данного сервиса приносили пользу лицам младше 18 лет, тексты корпуса должны быть отчищены от обсценной лексики. | ||
− | В рамках данного проекта предлагается разработать программу, позволяющую | + | В рамках данного проекта предлагается разработать программу, позволяющую очищать тексты от матерной и другой нецензурной лексики. |
=== Чему вы научитесь? === | === Чему вы научитесь? === | ||
− | # | + | #Основные задачи автоматической обработки текстов |
− | # | + | #Некоторые методы автоматической обработки текстов |
+ | ##Токенизация (разбиение текста на слова и определение границ предложения) | ||
+ | ##Лемматизация (привидение слова к начальной форме) | ||
+ | ##Морфологический анализ (определение частей речи) | ||
=== Какие начальные требования? === | === Какие начальные требования? === | ||
Строка 27: | Строка 31: | ||
=== Какие будут использоваться технологии? === | === Какие будут использоваться технологии? === | ||
− | * python | + | * python |
− | * | + | * NLTK |
− | + | * gensim | |
− | + | * pymorphy2 | |
− | + | ||
=== Направления развития === | === Направления развития === | ||
− | Реализованный прототип может быть использован как компонент вышеуказанного web-сервиса. | + | Реализованный прототип может быть использован как компонент вышеуказанного web-сервиса или как самостоятельное приложение для очистки произвольного входного текста. |
=== Критерии оценки === | === Критерии оценки === | ||
− | 4-5: очистка по словарю | + | 4-5: индексирование текстов из корпуса SketchEngine с помощью gensim и очистка по словарю обсцененной лексики<br /> |
− | 6-7: + использованием лемматизации | + | 6-7: + с использованием лемматизации корпуса SketchEngine <br /> |
− | 8-10: + разработка экспериментальной площадки для оценки точности-полноты | + | 8-10: + разработка экспериментальной площадки для оценки точности-полноты очистки корпуса SketchEngine или использование утилиты на произвольном входном тексте<br /> |
Текущая версия на 10:52, 20 октября 2015
Ментор | Шестаков Андрей |
Учебный семестр | Весна 2015 |
Учебный курс | 1-й курс |
Внимание! Данный проект находится в архиве и реализован не будет. |
Что это за проект?
SketchEngine - это сервис обработки текстовых корпусов, который показывает наиболее типичные перепредставленные и недопредставленные пары слов, синтаксически связанных в предложении. Для того, чтобы сервис выдавал осмысленные и приемлемые результаты, к исходному корпусу языка предъявляется ряд требований.
В частности, для того, чтобы результаты данного сервиса приносили пользу лицам младше 18 лет, тексты корпуса должны быть отчищены от обсценной лексики.
В рамках данного проекта предлагается разработать программу, позволяющую очищать тексты от матерной и другой нецензурной лексики.
Чему вы научитесь?
- Основные задачи автоматической обработки текстов
- Некоторые методы автоматической обработки текстов
- Токенизация (разбиение текста на слова и определение границ предложения)
- Лемматизация (привидение слова к начальной форме)
- Морфологический анализ (определение частей речи)
Какие начальные требования?
- Знание python
- Умение работать с *nix (желательно)
Проект не подразумевает разработку графической оболочки.
Какие будут использоваться технологии?
- python
- NLTK
- gensim
- pymorphy2
Направления развития
Реализованный прототип может быть использован как компонент вышеуказанного web-сервиса или как самостоятельное приложение для очистки произвольного входного текста.
Критерии оценки
4-5: индексирование текстов из корпуса SketchEngine с помощью gensim и очистка по словарю обсцененной лексики
6-7: + с использованием лемматизации корпуса SketchEngine
8-10: + разработка экспериментальной площадки для оценки точности-полноты очистки корпуса SketchEngine или использование утилиты на произвольном входном тексте