Извлечение именованных сущностей из текстов (проект) — различия между версиями

Материал из Wiki - Факультет компьютерных наук
Перейти к: навигация, поиск
(Направления развития)
(Полностью удалено содержимое страницы)
 
(не показано 15 промежуточных версии ещё одного участника)
Строка 1: Строка 1:
{{Карточка_проекта
 
|name=Извлечение именованных сущностей из текстов
 
|mentor=Иванов Кирилл
 
|mentor_login={{URLENCODE:Ivanov.kir.m|WIKI}}
 
|semester=Осень 2016
 
|course=2
 
|summer=
 
|number_of_students=3
 
|categorize=yes
 
}}
 
  
=== Что это за проект? ===
 
Результатом работы будет программа на Python, извлекающая именованные сущности (названия локаций или организаций, ФИО людей) из текстов на русском языке, собранных из сообществ ВКонтакте.
 
 
=== Чему вы научитесь? ===
 
В процессе работы студенты познакомятся с базовыми методами обработки текстов, узнают, как обучать и тестировать модели машинного обучения на Python.
 
 
=== Какие начальные требования? ===
 
Обязательно знание основ Python.
 
Приветствуется знакомство с методами компьютерной лингвистики и основами статистики.
 
 
=== Какие будут использоваться технологии? ===
 
Для построения и обучения моделей: Weka и/или scikit-learn
 
Для обработки текстов: NLTK, Pymorphy, Tomita Parser
 
Для хранения текстов и результатов: mongodb, pymongo, json
 
+ отдельные библиотеки по машинному обучению на Python, если понадобится (например, pyBrain, Theano, FANN для нейронных сетей)
 
+ регулярные выражения и лингвистические правила, если понадобится
 
Предполагается использование (как минимум): SVM, Naïve Bayes, HMM, CRF, нейронных сетей.
 
 
=== Темы вводных занятий ===
 
1. Задача выделения именованных сущностей. Метрики. Общая схема обучения и проверки модели (кросс-валидация, подбор параметров и т.п.)
 
2. SVM, NaiveBayes.
 
3. Нейронные сети. (базовое объяснение)
 
3. HMM (скрытые Марковские модели). (базовое объяснение)
 
 
=== Направления развития ===
 
# Расширение списка извлекаемых сущностей.
 
# Извлечение информации о сущностях (например, должность для человека).
 
# Разрешение кореференции.
 
# Пользовательский интерфейс (на любом ЯП) для ручной разметки корпуса и корректировки работы алгоритма.
 
 
=== Критерии оценки ===
 
4-5: реализация алгоритма машинного обучения с f-мерой > 0.5
 
6-7: реализация алгоритма машинного обучения с f-мерой > 0.6
 
8-9: реализация алгоритма машинного обучения с f-мерой > 0.7
 
10: реализация алгоритма машинного обучения с f-мерой > 0.8 или реализация нескольких методов с f-мерой > 0.7
 
+ 1 балл: использование лексико-синтаксических правил (Томита-парсер, LSPL и т.п.)
 
+ 1 балл: реализация пользовательского интерфейса (на любом ЯП) для ручной разметки корпуса и корректировки работы алгоритма.
 
+ 2 балла: извлечение информации о сущности (предварительно согласовать тип извлекаемой информации с ментором)
 
Критерии могут варьироваться в зависимости от максимального результата по группе.
 
 
=== Ориентировочное расписание занятий ===
 
Пока неизвестно :)
 

Текущая версия на 12:22, 2 октября 2016