Утилита для очистки текстов от обсценной лексики (проект) — различия между версиями

Материал из Wiki - Факультет компьютерных наук
Перейти к: навигация, поиск
(Чему вы научитесь?)
(Критерии оценки)
Строка 37: Строка 37:
  
 
=== Критерии оценки ===
 
=== Критерии оценки ===
4-5: очистка по словарю и индексирование
+
4-5: очистка по словарю и индексирование<br />
6-7: + использованием лемматизации
+
6-7: + использованием лемматизации<br />
8-10: + разработка экспериментальной площадки для оценки точности-полноты работы на произвольном тексте
+
8-10: + разработка экспериментальной площадки для оценки точности-полноты работы на произвольном тексте<br />

Версия 17:23, 3 декабря 2014

Ментор Шестаков Андрей
Учебный семестр Весна 2015
Учебный курс 1-й курс



Что это за проект?

SketchEngine - это сервис обработки текстовых корпусов, который показывает наиболее типичные перепредставленные и недопредставленные пары слов, синтаксически связанных в предложении. Для того, чтобы сервис выдавал осмысленные и приемлемые результаты к исходному корпусу языка предъявляется ряд требований.

В частности, для того, чтобы результаты данного сервиса приносили пользу лицам младше 18 лет, тексты корпуса должны быть отчищены от обсценной лексики.

В рамках данного проекта предлагается разработать программу, позволяющую анализировать тексты на предмет наличия в ней мата и другой нецензурной лекции с последующей очисткой.

Чему вы научитесь?

  1. Освоение ключевых понятий компьютерной лингвистки.
  2. Методы анализа и обработки текстов.

Какие начальные требования?

  • Знание python
  • Умение работать с *nix (желательно)

Проект не подразумевает разработку графической оболочки.

Какие будут использоваться технологии?

  • python.
  • git, github

Темы вводных занятий

Направления развития

Реализованный прототип может быть использован как компонент вышеуказанного web-сервиса.

Критерии оценки

4-5: очистка по словарю и индексирование
6-7: + использованием лемматизации
8-10: + разработка экспериментальной площадки для оценки точности-полноты работы на произвольном тексте