Утилита для очистки текстов от обсценной лексики (проект) — различия между версиями

Текущая версия на 10:52, 20 октября 2015


Ментор	Шестаков Андрей
Учебный семестр	Весна 2015
Учебный курс	1-й курс


Содержание 1 Что это за проект? 2 Чему вы научитесь? 3 Какие начальные требования? 4 Какие будут использоваться технологии? 5 Направления развития 6 Критерии оценки

Что это за проект?

SketchEngine - это сервис обработки текстовых корпусов, который показывает наиболее типичные перепредставленные и недопредставленные пары слов, синтаксически связанных в предложении. Для того, чтобы сервис выдавал осмысленные и приемлемые результаты, к исходному корпусу языка предъявляется ряд требований.

В частности, для того, чтобы результаты данного сервиса приносили пользу лицам младше 18 лет, тексты корпуса должны быть отчищены от обсценной лексики.

В рамках данного проекта предлагается разработать программу, позволяющую очищать тексты от матерной и другой нецензурной лексики.

Чему вы научитесь?

Основные задачи автоматической обработки текстов
Некоторые методы автоматической обработки текстов
1. Токенизация (разбиение текста на слова и определение границ предложения)
2. Лемматизация (привидение слова к начальной форме)
3. Морфологический анализ (определение частей речи)

Какие начальные требования?

Знание python
Умение работать с *nix (желательно)

Проект не подразумевает разработку графической оболочки.

Какие будут использоваться технологии?

python
NLTK
gensim
pymorphy2

Направления развития

Реализованный прототип может быть использован как компонент вышеуказанного web-сервиса или как самостоятельное приложение для очистки произвольного входного текста.

Критерии оценки

4-5: индексирование текстов из корпуса SketchEngine с помощью gensim и очистка по словарю обсцененной лексики
6-7: + с использованием лемматизации корпуса SketchEngine
8-10: + разработка экспериментальной площадки для оценки точности-полноты очистки корпуса SketchEngine или использование утилиты на произвольном входном тексте

@@ Строка 7: / Строка 7: @@
 |summer=
 |categorize=yes
+|is_archived=yes
 }}
 === Что это за проект? ===
-[http://www.sketchengine.co.uk/ SketchEngine] - это сервис обработки текстовых корпусов, который показывает наиболее типичные перепредставленные и недопредставленные пары слов, синтаксически связанных в предложении. Для того, чтобы сервис выдавал осмысленные и приемлемые результаты к исходному корпусу языка предъявляется ряд требований.
+[http://www.sketchengine.co.uk/ SketchEngine] - это сервис обработки текстовых корпусов, который показывает наиболее типичные перепредставленные и недопредставленные пары слов, синтаксически связанных в предложении. Для того, чтобы сервис выдавал осмысленные и приемлемые результаты, к исходному корпусу языка предъявляется ряд требований.
 В частности, для того, чтобы результаты данного сервиса приносили пользу лицам младше 18 лет, тексты корпуса должны быть отчищены от обсценной лексики.
-В рамках данного проекта предлагается разработать программу, позволяющую анализировать тексты на предмет наличия в ней мата и другой нецензурной лекции с последующей очисткой.
+В рамках данного проекта предлагается разработать программу, позволяющую очищать тексты от матерной и другой нецензурной лексики.
 === Чему вы научитесь? ===
-# Освоение ключевых понятий компьютерной лингвистки.
+#Основные задачи автоматической обработки текстов
-# Методы анализа и обработки текстов.
+#Некоторые методы автоматической  обработки текстов
+##Токенизация (разбиение текста на слова и определение границ предложения)
+##Лемматизация (привидение слова к начальной форме)
+##Морфологический анализ (определение частей речи)
 === Какие начальные требования? ===
@@ Строка 27: / Строка 31: @@
 === Какие будут использоваться технологии? ===
-* python.
+* python
-* git, github
+* NLTK
+* gensim
-=== Темы вводных занятий ===
+* pymorphy2
 === Направления развития ===
-Реализованный прототип может быть использован как компонент вышеуказанного web-сервиса.
+Реализованный прототип может быть использован как компонент вышеуказанного web-сервиса или как самостоятельное приложение для очистки произвольного входного текста.
 === Критерии оценки ===
--5: очистка по словарю и индексирование
+-5: индексирование текстов из корпуса SketchEngine с помощью gensim и очистка по словарю обсцененной лексики<br />
--7: + использованием лемматизации
+-7: + с использованием лемматизации  корпуса SketchEngine <br />
--10: + разработка экспериментальной площадки для оценки точности-полноты работы на произвольном тексте
+-10: + разработка экспериментальной площадки для оценки точности-полноты очистки корпуса SketchEngine  или использование утилиты на произвольном входном тексте<br />

Утилита для очистки текстов от обсценной лексики (проект) — различия между версиями

Текущая версия на 10:52, 20 октября 2015

Содержание

Что это за проект?

Чему вы научитесь?

Какие начальные требования?

Какие будут использоваться технологии?

Направления развития

Критерии оценки

Навигация

Персональные инструменты

Пространства имён

Варианты

Просмотры

Действия

Поиск

Навигация

Инструменты