Генератор псевдослов (проект) — различия между версиями

Материал из Wiki - Факультет компьютерных наук
Перейти к: навигация, поиск
(Новая страница, с помощью формы Новый_проект)
 
Строка 13: Строка 13:
  
 
=== Чему вы научитесь? ===
 
=== Чему вы научитесь? ===
- Создавать несложные графические пользовательские интерфейсы (GUI)
+
* Создавать несложные графические пользовательские интерфейсы (GUI)
- Решать реальные задачи по обработке естественного языка (NLP)
+
* Решать реальные задачи по обработке естественного языка (NLP)
- Основам промышленной разработки (CVS, Unit Testing, code review, style guide, bug tracking, etc.)
+
* Основам промышленной разработки (CVS, Unit Testing, code review, style guide, bug tracking, etc.)
  
 
=== Какие начальные требования? ===
 
=== Какие начальные требования? ===
Строка 27: Строка 27:
  
 
=== Направления развития ===
 
=== Направления развития ===
- Преобразование орфографии в фонемы и обратно
+
* Преобразование орфографии в фонемы и обратно
- Генерация псевдо словосочетаний и предложений
+
* Генерация псевдо словосочетаний и предложений
- Автоматическое определение ударения в слове
+
* Автоматическое определение ударения в слове
  
 
=== Критерии оценки ===
 
=== Критерии оценки ===
Начальный уровень: разбивка слов из словаря на слоги, генерация случайных псевдослов, пользовательский интерфейс с базовыми функциями, добавление слов в словарь, генерация псевдослов заданной части речи.
+
* Начальный уровень: разбивка слов из словаря на слоги, генерация случайных псевдослов, пользовательский интерфейс с базовыми функциями, добавление слов в словарь, генерация псевдослов заданной части речи.
Продвинутый уровень: блокировка морфологически сложных (со словообразовательными показателями) слов, генерация слов, близких к заданному.
+
* Продвинутый уровень: блокировка морфологически сложных (со словообразовательными показателями) слов, генерация слов, близких к заданному.
Экспертный уровень: генерация слов, далеких от слов словаря (расстояние Левенштейна), создание частотного словаря на основе корпуса текстов
+
* Экспертный уровень: генерация слов, далеких от слов словаря (расстояние Левенштейна), создание частотного словаря на основе корпуса текстов

Версия 23:26, 1 декабря 2014

Ментор Шулятьев Андрей
Учебный семестр Весна 2015
Учебный курс 1-й курс
Проект можно развивать на летней практике



Что это за проект?

Задача проекта - реализовать программу-генератор фонотактически приемлемых псевдослов русского языка для последующего использования в исследованиях лаборатории нейролингвистики ВШЭ

Чему вы научитесь?

  • Создавать несложные графические пользовательские интерфейсы (GUI)
  • Решать реальные задачи по обработке естественного языка (NLP)
  • Основам промышленной разработки (CVS, Unit Testing, code review, style guide, bug tracking, etc.)

Какие начальные требования?

Владение одним из языков программирования (C++ / Python) в рамках прослушанного курса

Какие будут использоваться технологии?

Наиболее стандартные по возможности

Темы вводных занятий

Необходимые начальные лингвистические знания и общая постановка задачи

Направления развития

  • Преобразование орфографии в фонемы и обратно
  • Генерация псевдо словосочетаний и предложений
  • Автоматическое определение ударения в слове

Критерии оценки

  • Начальный уровень: разбивка слов из словаря на слоги, генерация случайных псевдослов, пользовательский интерфейс с базовыми функциями, добавление слов в словарь, генерация псевдослов заданной части речи.
  • Продвинутый уровень: блокировка морфологически сложных (со словообразовательными показателями) слов, генерация слов, близких к заданному.
  • Экспертный уровень: генерация слов, далеких от слов словаря (расстояние Левенштейна), создание частотного словаря на основе корпуса текстов