Извлечение именованных сущностей из текстов (проект) — различия между версиями

Материал из Wiki - Факультет компьютерных наук
Перейти к: навигация, поиск
м (Ориентировочное расписание занятий)
Строка 1: Строка 1:
 
{{Карточка_проекта
 
{{Карточка_проекта
 
|name=Извлечение именованных сущностей из текстов
 
|name=Извлечение именованных сущностей из текстов
|mentor=Иванов Кирилл
+
|mentor=-
 
|mentor_login={{URLENCODE:Ivanov.kir.m|WIKI}}
 
|mentor_login={{URLENCODE:Ivanov.kir.m|WIKI}}
 
|semester=Осень 2016
 
|semester=Осень 2016
Строка 58: Строка 58:
  
 
=== Ориентировочное расписание занятий ===
 
=== Ориентировочное расписание занятий ===
'''Предварительно:'''
 
*Понедельник - любое время
 
*Вторник - первая половина дня (до 15.00)
 
*Пятница - любое время
 
*Суббота - любое время
 
<br />В скором времени возможно произойдет небольшое изменение (время проведения одной пары в моем личном расписании еще не определено).
 
<br />Окончательное расписание выберем со студентами выбравшими данный проект.
 

Версия 12:22, 17 сентября 2016

Ментор -
Учебный семестр Осень 2016
Учебный курс 2-й курс
Максимальное количество студентов, выбравших проект: 7



Что это за проект?

Результатом работы будет программа на Python, извлекающая именованные сущности (названия локаций или организаций, ФИО людей) из текстов на русском языке, собранных из сообществ ВКонтакте.

Чему вы научитесь?

В процессе работы студенты познакомятся с базовыми методами обработки текстов, узнают, как обучать и тестировать модели машинного обучения на Python.

Какие начальные требования?

Обязательно знание основ Python. Приветствуется знакомство с методами компьютерной лингвистики и основами статистики.

Какие будут использоваться технологии?

Для построения и обучения моделей: Weka и/или scikit-learn

Для обработки текстов: NLTK, Pymorphy, Tomita Parser

Для хранения текстов и результатов: mongodb, pymongo, json
Кроме того:

  • отдельные библиотеки по машинному обучению на Python, если понадобится (например, pyBrain, Theano, FANN для нейронных сетей)
  • регулярные выражения и лингвистические правила, если понадобится


Предполагается использование: SVM, Naïve Bayes, HMM, CRF, нейронных сетей.

Темы вводных занятий

  1. Задача выделения именованных сущностей. Метрики. Общая схема обучения и проверки модели (кросс-валидация, подбор параметров и т.п.)
  2. SVM, NaiveBayes.
  3. Нейронные сети. (базовое объяснение)
  4. HMM (скрытые Марковские модели). (базовое объяснение)

Направления развития

  1. Расширение списка извлекаемых сущностей.
  2. Извлечение информации о сущностях (например, должность для человека).
  3. Разрешение кореферентных связей
  4. Пользовательский интерфейс (на любом ЯП) для ручной разметки корпуса и корректировки работы алгоритма.

Критерии оценки

  • 4-5: реализация алгоритма машинного обучения с f-мерой > 0.5
  • 6-7: реализация алгоритма машинного обучения с f-мерой > 0.6
  • 8-9: реализация алгоритма машинного обучения с f-мерой > 0.7
  • 10: реализация алгоритма машинного обучения с f-мерой > 0.8 или реализация комбинации нескольких методов с f-мерой > 0.7

+ 1 балл: использование лексико-синтаксических правил (Томита-парсер, LSPL и т.п.)

+ 1 балл: реализация пользовательского интерфейса (на любом ЯП) для ручной разметки корпуса и корректировки работы алгоритма.

+ 2 балла: извлечение информации о сущности (предварительно согласовать тип извлекаемой информации с ментором)

Критерии могут варьироваться в зависимости от максимального результата по группе.

Ориентировочное расписание занятий