Утилита для очистки текстов от обсценной лексики (проект) — различия между версиями

Материал из Wiki - Факультет компьютерных наук
Перейти к: навигация, поиск
(Чему вы научитесь?)
 
(не показано 15 промежуточных версии 4 участников)
Строка 7: Строка 7:
 
|summer=
 
|summer=
 
|categorize=yes
 
|categorize=yes
 +
|is_archived=yes
 
}}
 
}}
  
 
=== Что это за проект? ===
 
=== Что это за проект? ===
[http://www.sketchengine.co.uk/ SketchEngine] - это сервис обработки текстовых корпусов, который показывает наиболее типичные перепредставленные и недопредставленные пары слов, синтаксически связанных в предложении. Для того, чтобы сервис выдавал осмысленные и приемлемые результаты к исходному корпусу языка предъявляется ряд требований.
+
[http://www.sketchengine.co.uk/ SketchEngine] - это сервис обработки текстовых корпусов, который показывает наиболее типичные перепредставленные и недопредставленные пары слов, синтаксически связанных в предложении. Для того, чтобы сервис выдавал осмысленные и приемлемые результаты, к исходному корпусу языка предъявляется ряд требований.
  
 
В частности, для того, чтобы результаты данного сервиса приносили пользу лицам младше 18 лет, тексты корпуса должны быть отчищены от обсценной лексики.
 
В частности, для того, чтобы результаты данного сервиса приносили пользу лицам младше 18 лет, тексты корпуса должны быть отчищены от обсценной лексики.
  
В рамках данного проекта предлагается разработать программу, позволяющую анализировать тексты на предмет наличия в ней мата и другой нецензурной лекции с последующей очисткой.
+
В рамках данного проекта предлагается разработать программу, позволяющую очищать тексты от матерной и другой нецензурной лексики.
  
 
=== Чему вы научитесь? ===
 
=== Чему вы научитесь? ===
# Освоение ключевых понятий компьютерной лингвистки.
+
#Основные задачи автоматической обработки текстов
# Методы анализа и обработки текстов.
+
#Некоторые методы автоматической  обработки текстов
 +
##Токенизация (разбиение текста на слова и определение границ предложения)
 +
##Лемматизация (привидение слова к начальной форме)
 +
##Морфологический анализ (определение частей речи)
  
 
=== Какие начальные требования? ===
 
=== Какие начальные требования? ===
Строка 27: Строка 31:
  
 
=== Какие будут использоваться технологии? ===
 
=== Какие будут использоваться технологии? ===
* python.
+
* python
* git, github
+
* NLTK
 
+
* gensim
=== Темы вводных занятий ===
+
* pymorphy2
 
+
  
 
=== Направления развития ===
 
=== Направления развития ===
Реализованный прототип может быть использован как компонент вышеуказанного web-сервиса.
+
Реализованный прототип может быть использован как компонент вышеуказанного web-сервиса или как самостоятельное приложение для очистки произвольного входного текста.
  
 
=== Критерии оценки ===
 
=== Критерии оценки ===
4-5: очистка по словарю и индексирование
+
4-5: индексирование текстов из корпуса SketchEngine с помощью gensim и очистка по словарю обсцененной лексики<br />
6-7: + использованием лемматизации
+
6-7: + с использованием лемматизации корпуса SketchEngine <br />
8-10: + разработка экспериментальной площадки для оценки точности-полноты работы на произвольном тексте
+
8-10: + разработка экспериментальной площадки для оценки точности-полноты очистки корпуса SketchEngine  или использование утилиты на произвольном входном тексте<br />

Текущая версия на 10:52, 20 октября 2015

Ментор Шестаков Андрей
Учебный семестр Весна 2015
Учебный курс 1-й курс


Внимание! Данный проект находится в архиве и реализован не будет.

Что это за проект?

SketchEngine - это сервис обработки текстовых корпусов, который показывает наиболее типичные перепредставленные и недопредставленные пары слов, синтаксически связанных в предложении. Для того, чтобы сервис выдавал осмысленные и приемлемые результаты, к исходному корпусу языка предъявляется ряд требований.

В частности, для того, чтобы результаты данного сервиса приносили пользу лицам младше 18 лет, тексты корпуса должны быть отчищены от обсценной лексики.

В рамках данного проекта предлагается разработать программу, позволяющую очищать тексты от матерной и другой нецензурной лексики.

Чему вы научитесь?

  1. Основные задачи автоматической обработки текстов
  2. Некоторые методы автоматической обработки текстов
    1. Токенизация (разбиение текста на слова и определение границ предложения)
    2. Лемматизация (привидение слова к начальной форме)
    3. Морфологический анализ (определение частей речи)

Какие начальные требования?

  • Знание python
  • Умение работать с *nix (желательно)

Проект не подразумевает разработку графической оболочки.

Какие будут использоваться технологии?

  • python
  • NLTK
  • gensim
  • pymorphy2

Направления развития

Реализованный прототип может быть использован как компонент вышеуказанного web-сервиса или как самостоятельное приложение для очистки произвольного входного текста.

Критерии оценки

4-5: индексирование текстов из корпуса SketchEngine с помощью gensim и очистка по словарю обсцененной лексики
6-7: + с использованием лемматизации корпуса SketchEngine
8-10: + разработка экспериментальной площадки для оценки точности-полноты очистки корпуса SketchEngine или использование утилиты на произвольном входном тексте