Генератор псевдослов (проект) — различия между версиями
Материал из Wiki - Факультет компьютерных наук
(Новая страница, с помощью формы Новый_проект) |
|||
Строка 13: | Строка 13: | ||
=== Чему вы научитесь? === | === Чему вы научитесь? === | ||
− | + | * Создавать несложные графические пользовательские интерфейсы (GUI) | |
− | + | * Решать реальные задачи по обработке естественного языка (NLP) | |
− | + | * Основам промышленной разработки (CVS, Unit Testing, code review, style guide, bug tracking, etc.) | |
=== Какие начальные требования? === | === Какие начальные требования? === | ||
Строка 27: | Строка 27: | ||
=== Направления развития === | === Направления развития === | ||
− | + | * Преобразование орфографии в фонемы и обратно | |
− | + | * Генерация псевдо словосочетаний и предложений | |
− | + | * Автоматическое определение ударения в слове | |
=== Критерии оценки === | === Критерии оценки === | ||
− | Начальный уровень: разбивка слов из словаря на слоги, генерация случайных псевдослов, пользовательский интерфейс с базовыми функциями, добавление слов в словарь, генерация псевдослов заданной части речи. | + | * Начальный уровень: разбивка слов из словаря на слоги, генерация случайных псевдослов, пользовательский интерфейс с базовыми функциями, добавление слов в словарь, генерация псевдослов заданной части речи. |
− | Продвинутый уровень: блокировка морфологически сложных (со словообразовательными показателями) слов, генерация слов, близких к заданному. | + | * Продвинутый уровень: блокировка морфологически сложных (со словообразовательными показателями) слов, генерация слов, близких к заданному. |
− | Экспертный уровень: генерация слов, далеких от слов словаря (расстояние Левенштейна), создание частотного словаря на основе корпуса текстов | + | * Экспертный уровень: генерация слов, далеких от слов словаря (расстояние Левенштейна), создание частотного словаря на основе корпуса текстов |
Версия 23:26, 1 декабря 2014
Ментор | Шулятьев Андрей |
Учебный семестр | Весна 2015 |
Учебный курс | 1-й курс |
Проект можно развивать на летней практике | |
Что это за проект?
Задача проекта - реализовать программу-генератор фонотактически приемлемых псевдослов русского языка для последующего использования в исследованиях лаборатории нейролингвистики ВШЭ
Чему вы научитесь?
- Создавать несложные графические пользовательские интерфейсы (GUI)
- Решать реальные задачи по обработке естественного языка (NLP)
- Основам промышленной разработки (CVS, Unit Testing, code review, style guide, bug tracking, etc.)
Какие начальные требования?
Владение одним из языков программирования (C++ / Python) в рамках прослушанного курса
Какие будут использоваться технологии?
Наиболее стандартные по возможности
Темы вводных занятий
Необходимые начальные лингвистические знания и общая постановка задачи
Направления развития
- Преобразование орфографии в фонемы и обратно
- Генерация псевдо словосочетаний и предложений
- Автоматическое определение ударения в слове
Критерии оценки
- Начальный уровень: разбивка слов из словаря на слоги, генерация случайных псевдослов, пользовательский интерфейс с базовыми функциями, добавление слов в словарь, генерация псевдослов заданной части речи.
- Продвинутый уровень: блокировка морфологически сложных (со словообразовательными показателями) слов, генерация слов, близких к заданному.
- Экспертный уровень: генерация слов, далеких от слов словаря (расстояние Левенштейна), создание частотного словаря на основе корпуса текстов