Извлечение именованных сущностей из текстов (проект) — различия между версиями

Версия 12:22, 17 сентября 2016


Ментор	-
Учебный семестр	Осень 2016
Учебный курс	2-й курс

Максимальное количество студентов, выбравших проект: 7
Содержание 1 Что это за проект? 2 Чему вы научитесь? 3 Какие начальные требования? 4 Какие будут использоваться технологии? 5 Темы вводных занятий 6 Направления развития 7 Критерии оценки 8 Ориентировочное расписание занятий

Что это за проект?

Результатом работы будет программа на Python, извлекающая именованные сущности (названия локаций или организаций, ФИО людей) из текстов на русском языке, собранных из сообществ ВКонтакте.

Чему вы научитесь?

В процессе работы студенты познакомятся с базовыми методами обработки текстов, узнают, как обучать и тестировать модели машинного обучения на Python.

Какие начальные требования?

Обязательно знание основ Python. Приветствуется знакомство с методами компьютерной лингвистики и основами статистики.

Какие будут использоваться технологии?

Для построения и обучения моделей: Weka и/или scikit-learn

Для обработки текстов: NLTK, Pymorphy, Tomita Parser

Для хранения текстов и результатов: mongodb, pymongo, json
Кроме того:

отдельные библиотеки по машинному обучению на Python, если понадобится (например, pyBrain, Theano, FANN для нейронных сетей)
регулярные выражения и лингвистические правила, если понадобится

Предполагается использование: SVM, Naïve Bayes, HMM, CRF, нейронных сетей.

Темы вводных занятий

Задача выделения именованных сущностей. Метрики. Общая схема обучения и проверки модели (кросс-валидация, подбор параметров и т.п.)
SVM, NaiveBayes.
Нейронные сети. (базовое объяснение)
HMM (скрытые Марковские модели). (базовое объяснение)

Направления развития

Расширение списка извлекаемых сущностей.
Извлечение информации о сущностях (например, должность для человека).
Разрешение кореферентных связей
Пользовательский интерфейс (на любом ЯП) для ручной разметки корпуса и корректировки работы алгоритма.

Критерии оценки

4-5: реализация алгоритма машинного обучения с f-мерой > 0.5
6-7: реализация алгоритма машинного обучения с f-мерой > 0.6
8-9: реализация алгоритма машинного обучения с f-мерой > 0.7
10: реализация алгоритма машинного обучения с f-мерой > 0.8 или реализация комбинации нескольких методов с f-мерой > 0.7

+ 1 балл: использование лексико-синтаксических правил (Томита-парсер, LSPL и т.п.)

+ 1 балл: реализация пользовательского интерфейса (на любом ЯП) для ручной разметки корпуса и корректировки работы алгоритма.

+ 2 балла: извлечение информации о сущности (предварительно согласовать тип извлекаемой информации с ментором)

Критерии могут варьироваться в зависимости от максимального результата по группе.

Ориентировочное расписание занятий

@@ Строка 1: / Строка 1: @@
 {{Карточка_проекта
 |name=Извлечение именованных сущностей из текстов
-|mentor=Иванов Кирилл
+|mentor=-
 |mentor_login={{URLENCODE:Ivanov.kir.m|WIKI}}
 |semester=Осень 2016
@@ Строка 58: / Строка 58: @@
 === Ориентировочное расписание занятий ===
-'''Предварительно:'''
-*Понедельник - любое время
-*Вторник - первая половина дня (до 15.00)
-*Пятница - любое время
-*Суббота - любое время
-<br />В скором времени возможно произойдет небольшое изменение (время проведения одной пары в моем личном расписании еще не определено).
-<br />Окончательное расписание выберем со студентами выбравшими данный проект.

Извлечение именованных сущностей из текстов (проект) — различия между версиями

Версия 12:22, 17 сентября 2016

Содержание

Что это за проект?

Чему вы научитесь?

Какие начальные требования?

Какие будут использоваться технологии?

Темы вводных занятий

Направления развития

Критерии оценки

Ориентировочное расписание занятий

Навигация

Персональные инструменты

Пространства имён

Варианты

Просмотры

Действия

Поиск

Навигация

Инструменты