Утилита для чистки корпуса от дубликатов (проект) — различия между версиями

Материал из Wiki - Факультет компьютерных наук
Перейти к: навигация, поиск
(Критерии оценки)
 
(не показаны 4 промежуточные версии ещё одного участника)
Строка 7: Строка 7:
 
|summer=
 
|summer=
 
|categorize=yes
 
|categorize=yes
 +
|is_archived=yes
 
}}
 
}}
  
Строка 12: Строка 13:
 
[http://www.sketchengine.co.uk/ SketchEngine] - это сервис обработки текстовых корпусов, который показывает наиболее типичные перепредставленные и недопредставленные пары слов, синтаксически связанных в предложении. Для того, чтобы сервис выдавал осмысленные и приемлемые результаты, к исходному корпусу языка предъявляется ряд требований.
 
[http://www.sketchengine.co.uk/ SketchEngine] - это сервис обработки текстовых корпусов, который показывает наиболее типичные перепредставленные и недопредставленные пары слов, синтаксически связанных в предложении. Для того, чтобы сервис выдавал осмысленные и приемлемые результаты, к исходному корпусу языка предъявляется ряд требований.
  
В частности, корпус должен быть <<сбалансирован>>, то есть не содержать текстов-дубликатов.
+
В частности, корпус должен быть сбалансирован, то есть не содержать текстов-дубликатов.
 
Это необходимо, например, для более точной оценки представленности речевых оборотов.
 
Это необходимо, например, для более точной оценки представленности речевых оборотов.
  
 
=== Чему вы научитесь? ===
 
=== Чему вы научитесь? ===
# Освоение ключевых понятий компьютерной лингвистки.
+
# Алгоритм шинглирования
# Методы анализа и обработки текстов.
+
# Методы обработки текстов
 +
## Удаление стоп-слов
 +
## Лемматизация (приведение слова к начальной форме)
 +
## Морфологическая разметка (определение части речи слова)
  
 
=== Какие начальные требования? ===
 
=== Какие начальные требования? ===
Строка 25: Строка 29:
 
=== Какие будут использоваться технологии? ===
 
=== Какие будут использоваться технологии? ===
 
* python
 
* python
* git, github
+
* NLTK
 +
* gensim
 +
* binascii
 +
* pymorphy2 / mystem
 
* MongoDB (возможно)
 
* MongoDB (возможно)
  
 
=== Темы вводных занятий ===
 
=== Темы вводных занятий ===
 
+
# Алгоритм шинглирования
 +
# Способы представления графов (матрица /список смежности)
 +
# Поиск компонент связности
  
 
=== Направления развития ===
 
=== Направления развития ===

Текущая версия на 10:53, 20 октября 2015

Ментор Шестаков Андрей
Учебный семестр Весна 2015
Учебный курс 1-й курс


Внимание! Данный проект находится в архиве и реализован не будет.

Что это за проект?

SketchEngine - это сервис обработки текстовых корпусов, который показывает наиболее типичные перепредставленные и недопредставленные пары слов, синтаксически связанных в предложении. Для того, чтобы сервис выдавал осмысленные и приемлемые результаты, к исходному корпусу языка предъявляется ряд требований.

В частности, корпус должен быть сбалансирован, то есть не содержать текстов-дубликатов. Это необходимо, например, для более точной оценки представленности речевых оборотов.

Чему вы научитесь?

  1. Алгоритм шинглирования
  2. Методы обработки текстов
    1. Удаление стоп-слов
    2. Лемматизация (приведение слова к начальной форме)
    3. Морфологическая разметка (определение части речи слова)

Какие начальные требования?

  • Знание python
  • Умение работать с *nix (желательно)

Какие будут использоваться технологии?

  • python
  • NLTK
  • gensim
  • binascii
  • pymorphy2 / mystem
  • MongoDB (возможно)

Темы вводных занятий

  1. Алгоритм шинглирования
  2. Способы представления графов (матрица /список смежности)
  3. Поиск компонент связности

Направления развития

Реализованный прототип может быть использован как компонент вышеуказанного web-сервиса.

Критерии оценки

4-5: оценка степени сходства двух документов
6-7: + построение графа сходства на множестве документов и наивный алгоритм удаления дубликатов
8-10: + усложненный алгоритм удаления дубликатов