Разработка программы для синтаксического анализа текста (проект)

Материал из Wiki - Факультет компьютерных наук
Перейти к: навигация, поиск
Ментор Иван Лисенков
Учебный семестр Весна 2015
Учебный курс 1-й курс



Что это за проект?

Программа поиска правил (нечетких высказываний) в произвольном тексте. Полученные Нечеткие высказывания, должны быть сопоставлены с уже ранее найденными, в случае необходимости должны быть сохранены или обновлены нечеткие высказывания в базе знаний. Подобная программа может стать основой для разработки программы поиска нечетких высказываний в интернет.

Программа должна анализировать входную текстовую информацию с целью поиска нечетких логических высказываний вида:

Если [не|очень|слегка…] <ЛИНГВИСТИЧЕСКАЯ ПЕРЕМЕННАЯ 1> есть <ТЕРМ 1> [и, или,] <ЛИНГВИСТИЧЕСКАЯ ПЕРЕМЕННАЯ 2> есть <ТЕРМ 2> ... тогда <ЛИНГВИСТИЧЕСКАЯ ПЕРЕМЕННАЯ 3> есть <ТЕРМ 3>

Чему вы научитесь?

  • Формулировать постановку задачи
  • Основам теории нечеткой логики (Fuzzy Logic)
  • Современным подходам контекстного поиска и синтаксического разбора текста
  • Писать надежный и понятный код
  • Работать с реляционными базами данных, проектировать модели хранения данных (физическую и логическую)

Какие начальные требования?

Программирование на C/C++/Python (в рамках прослушанного курса)

Какие будут использоваться технологии?

  • C++ / Python в рамках прослушанного курса
  • PostgresSQL

Темы вводных занятий

  • Основы теории нечеткой логики (Нечеткие множества, Нечеткие и Лингвистические переменные, Контроллер на основе нечеткой логики)
  • Синтаксический разбор естественного текста

Направления развития

  • Использование программы для пополнения базы знаний нечеткими правилами, нечеткими и лингвистическими переменными
  • Использование программы совместно с контроллером на основе нечеткой логики (Mamdani, Sugeno) для поддержки принятия решений

Критерии оценки

  • 4-5 : реализованная и протестированная программа, осуществляющая поиск нечетких высказываний и последующий разбор в виде синтаксического дерева для дальнейшего анализа,
  • 6-7 : Дополнительно, выделение лингвистических переменных, термов, модифицированных термов, и сопоставление с уже определенными в базе знаний; возможность установления синонимов,
  • 8-10 : Дополнительно, сохранение выявленных нечетких высказываний в базе знаний, возможность построения цепочек высказываний.