Разработка программы для синтаксического анализа текста (проект)
Материал из Wiki - Факультет компьютерных наук
Ментор | Иван Лисенков |
Учебный семестр | Весна 2015 |
Учебный курс | 1-й курс |
Внимание! Данный проект находится в архиве и реализован не будет. |
Что это за проект?
Программа поиска правил (нечетких высказываний) в произвольном тексте. Полученные Нечеткие высказывания, должны быть сопоставлены с уже ранее найденными, в случае необходимости должны быть сохранены или обновлены нечеткие высказывания в базе знаний. Подобная программа может стать основой для разработки программы поиска нечетких высказываний в интернет.
Программа должна анализировать входную текстовую информацию с целью поиска нечетких логических высказываний вида:
Если [не|очень|слегка…] <ЛИНГВИСТИЧЕСКАЯ ПЕРЕМЕННАЯ 1> есть <ТЕРМ 1> [и, или,] <ЛИНГВИСТИЧЕСКАЯ ПЕРЕМЕННАЯ 2> есть <ТЕРМ 2> ... тогда <ЛИНГВИСТИЧЕСКАЯ ПЕРЕМЕННАЯ 3> есть <ТЕРМ 3>
Чему вы научитесь?
- Формулировать постановку задачи
- Основам теории нечеткой логики (Fuzzy Logic)
- Современным подходам контекстного поиска и синтаксического разбора текста
- Писать надежный и понятный код
- Работать с реляционными базами данных, проектировать модели хранения данных (физическую и логическую)
Какие начальные требования?
Программирование на C/C++/Python (в рамках прослушанного курса)
Какие будут использоваться технологии?
- C++ / Python в рамках прослушанного курса
- PostgresSQL
Темы вводных занятий
- Основы теории нечеткой логики (Нечеткие множества, Нечеткие и Лингвистические переменные, Контроллер на основе нечеткой логики)
- Синтаксический разбор естественного текста
- Работа с реляционными базам данных (проектирование модели хранения данных, написание SQL запросов)
Направления развития
- Использование программы для пополнения базы знаний нечеткими правилами, нечеткими и лингвистическими переменными
- Использование программы совместно с контроллером на основе нечеткой логики (Mamdani, Sugeno) для поддержки принятия решений
Критерии оценки
- 4-5 : реализованная и протестированная программа, осуществляющая поиск нечетких высказываний и последующий разбор в виде синтаксического дерева для дальнейшего анализа,
- 6-7 : Дополнительно, выделение лингвистических переменных, термов, модифицированных термов, и сопоставление с уже определенными в базе знаний;
- 8-10 : Дополнительно, сохранение выявленных нечетких высказываний в базе знаний.