Генератор псевдослов (проект) — различия между версиями

Материал из Wiki - Факультет компьютерных наук
Перейти к: навигация, поиск
м (Какие будут использоваться технологии?)
 
Строка 7: Строка 7:
 
|summer=on
 
|summer=on
 
|categorize=yes
 
|categorize=yes
 +
|is_archived=yes
 +
|is_remote=
 
}}
 
}}
  

Текущая версия на 19:13, 19 января 2015

Ментор Шулятьев Андрей
Учебный семестр Весна 2015
Учебный курс 1-й курс
Проект можно развивать на летней практике


Внимание! Данный проект находится в архиве и реализован не будет.

Что это за проект?

Задача проекта - реализовать программу-генератор псевдослов русского языка для последующего использования в исследованиях лаборатории нейролингвистики ВШЭ. Псевдослово - это фонетически примелемое слово языка, которое не имеет значения. Например, стихотворение Льюиса Кэррола "Бармаглот" ("Варкалось. Хливкие шорьки Пырялись по наве ...") почти полностью состоит из псевдослов. Псевдослова очень широко используются в психо- и нейролингвистике, от исследований лексической обработки (почему одни слова обрабатываются быстрее, чем другие? где в мозгу находятся зоны, ответственные за значения слов?) до диагностики расстройств речи (сможет ли страдающий афазией или дислексией человек отличить слово от псевдослова и если нет, то почему?)

Чему вы научитесь?

  • Создавать несложные графические пользовательские интерфейсы под Windows (GUI)
  • Решать реальные задачи по обработке естественного языка (NLP)
  • Основам промышленной разработки (CVS, Unit Testing, code review, style guide, bug tracking, etc.)

Какие начальные требования?

Владение одним из языков программирования (C++ / Python) в рамках прослушанного курса

Какие будут использоваться технологии?

Наиболее стандартные, по возможности

Темы вводных занятий

Необходимые начальные лингвистические знания и общая постановка задачи

Направления развития

  • Преобразование орфографии в фонемы и обратно
  • Генерация псевдо словосочетаний и предложений
  • Автоматическое определение ударения в слове

Критерии оценки

  • Удовлетворительно (4-5 баллов): разбивка слов из словаря на слоги, генерация случайных псевдослов, пользовательский интерфейс с базовыми функциями, добавление слов в словарь, генерация псевдослов заданной части речи
  • Хорошо (6-7 баллов): блокировка морфологически сложных (со словообразовательными показателями) слов, генерация слов, близких к заданному
  • Отлично (8-10 баллов): генерация слов, далеких от слов словаря (расстояние Левенштейна), создание частотного словаря на основе корпуса текстов