Извлечение именованных сущностей из текстов (проект) — различия между версиями

Материал из Wiki - Факультет компьютерных наук
Перейти к: навигация, поиск
(Полностью удалено содержимое страницы)
 
Строка 1: Строка 1:
{{Карточка_проекта
 
|mentor= -
 
|mentor_login={{URLENCODE:-}}
 
|name=Извлечение именованных сущностей из текстов
 
|semester=Осень 2016
 
|course=2
 
|summer=
 
|number_of_students=7
 
|categorize=yes
 
}}
 
  
=== Что это за проект? ===
 
Результатом работы будет программа на Python, извлекающая именованные сущности (названия локаций или организаций, ФИО людей) из текстов на русском языке, собранных из сообществ ВКонтакте.
 
 
=== Чему вы научитесь? ===
 
В процессе работы студенты познакомятся с базовыми методами обработки текстов, узнают, как обучать и тестировать модели машинного обучения на Python.
 
 
=== Какие начальные требования? ===
 
Обязательно знание основ Python.
 
Приветствуется знакомство с методами компьютерной лингвистики и основами статистики.
 
 
=== Какие будут использоваться технологии? ===
 
Для построения и обучения моделей: Weka и/или scikit-learn<br />
 
 
Для обработки текстов: NLTK, Pymorphy, Tomita Parser<br />
 
 
Для хранения текстов и результатов: mongodb, pymongo, json<br />
 
Кроме того:
 
* отдельные библиотеки по машинному обучению на Python, если понадобится (например, pyBrain, Theano, FANN для нейронных сетей)
 
* регулярные выражения и лингвистические правила, если понадобится
 
<br />
 
Предполагается использование: SVM, Naïve Bayes, HMM, CRF, нейронных сетей.
 
 
=== Темы вводных занятий ===
 
# Задача выделения именованных сущностей. Метрики. Общая схема обучения и проверки модели (кросс-валидация, подбор параметров и т.п.)
 
# SVM, NaiveBayes.
 
# Нейронные сети. (базовое объяснение)
 
# HMM (скрытые Марковские модели). (базовое объяснение)
 
 
=== Направления развития ===
 
# Расширение списка извлекаемых сущностей.
 
# Извлечение информации о сущностях (например, должность для человека).
 
# Разрешение кореферентных связей
 
# Пользовательский интерфейс (на любом ЯП) для ручной разметки корпуса и корректировки работы алгоритма.
 
 
=== Критерии оценки ===
 
* 4-5: реализация алгоритма машинного обучения с f-мерой > 0.5
 
* 6-7: реализация алгоритма машинного обучения с f-мерой > 0.6
 
* 8-9: реализация алгоритма машинного обучения с f-мерой > 0.7
 
* 10: реализация алгоритма машинного обучения с f-мерой > 0.8 или реализация комбинации нескольких методов с f-мерой > 0.7
 
+ 1 балл: использование лексико-синтаксических правил (Томита-парсер, LSPL и т.п.)<br />
 
 
+ 1 балл: реализация пользовательского интерфейса (на любом ЯП) для ручной разметки корпуса и корректировки работы алгоритма.<br />
 
 
+ 2 балла: извлечение информации о сущности (предварительно согласовать тип извлекаемой информации с ментором)<br />
 
 
Критерии могут варьироваться в зависимости от максимального результата по группе.
 
 
=== Ориентировочное расписание занятий ===
 

Текущая версия на 12:22, 2 октября 2016