Генератор псевдослов (проект) — различия между версиями
м |
м (→Какие будут использоваться технологии?) |
||
Строка 21: | Строка 21: | ||
=== Какие будут использоваться технологии? === | === Какие будут использоваться технологии? === | ||
− | Наиболее стандартные по возможности | + | Наиболее стандартные, по возможности |
=== Темы вводных занятий === | === Темы вводных занятий === |
Версия 17:10, 29 декабря 2014
Ментор | Шулятьев Андрей |
Учебный семестр | Весна 2015 |
Учебный курс | 1-й курс |
Проект можно развивать на летней практике | |
Что это за проект?
Задача проекта - реализовать программу-генератор псевдослов русского языка для последующего использования в исследованиях лаборатории нейролингвистики ВШЭ. Псевдослово - это фонетически примелемое слово языка, которое не имеет значения. Например, стихотворение Льюиса Кэррола "Бармаглот" ("Варкалось. Хливкие шорьки Пырялись по наве ...") почти полностью состоит из псевдослов. Псевдослова очень широко используются в психо- и нейролингвистике, от исследований лексической обработки (почему одни слова обрабатываются быстрее, чем другие? где в мозгу находятся зоны, ответственные за значения слов?) до диагностики расстройств речи (сможет ли страдающий афазией или дислексией человек отличить слово от псевдослова и если нет, то почему?)
Чему вы научитесь?
- Создавать несложные графические пользовательские интерфейсы под Windows (GUI)
- Решать реальные задачи по обработке естественного языка (NLP)
- Основам промышленной разработки (CVS, Unit Testing, code review, style guide, bug tracking, etc.)
Какие начальные требования?
Владение одним из языков программирования (C++ / Python) в рамках прослушанного курса
Какие будут использоваться технологии?
Наиболее стандартные, по возможности
Темы вводных занятий
Необходимые начальные лингвистические знания и общая постановка задачи
Направления развития
- Преобразование орфографии в фонемы и обратно
- Генерация псевдо словосочетаний и предложений
- Автоматическое определение ударения в слове
Критерии оценки
- Удовлетворительно (4-5 баллов): разбивка слов из словаря на слоги, генерация случайных псевдослов, пользовательский интерфейс с базовыми функциями, добавление слов в словарь, генерация псевдослов заданной части речи
- Хорошо (6-7 баллов): блокировка морфологически сложных (со словообразовательными показателями) слов, генерация слов, близких к заданному
- Отлично (8-10 баллов): генерация слов, далеких от слов словаря (расстояние Левенштейна), создание частотного словаря на основе корпуса текстов