Извлечение именованных сущностей из текстов (проект) — различия между версиями

@@ Строка 1: / Строка 1: @@
-{{Карточка_проекта
-|name=Извлечение именованных сущностей из текстов
-|semester=Осень 2016
-|course=2
-|summer=
-|number_of_students=7
-|categorize=yes
-}}
-=== Что это за проект? ===
-Результатом работы будет программа на Python, извлекающая именованные сущности (названия локаций или организаций, ФИО людей) из текстов на русском языке, собранных из сообществ ВКонтакте.
-=== Чему вы научитесь? ===
-В процессе работы студенты познакомятся с базовыми методами обработки текстов, узнают, как обучать и тестировать модели машинного обучения на Python.
-=== Какие начальные требования? ===
-Обязательно знание основ Python.
-Приветствуется знакомство с методами компьютерной лингвистики и основами статистики.
-=== Какие будут использоваться технологии? ===
-Для построения и обучения моделей: Weka и/или scikit-learn<br />
-Для обработки текстов: NLTK, Pymorphy, Tomita Parser<br />
-Для хранения текстов и результатов: mongodb, pymongo, json<br />
-Кроме того:
-* отдельные библиотеки по машинному обучению на Python, если понадобится (например, pyBrain, Theano, FANN для нейронных сетей)
-* регулярные выражения и лингвистические правила, если понадобится
-<br />
-Предполагается использование: SVM, Naïve Bayes, HMM, CRF, нейронных сетей.
-=== Темы вводных занятий ===
-# Задача выделения именованных сущностей. Метрики. Общая схема обучения и проверки модели (кросс-валидация, подбор параметров и т.п.)
-# SVM, NaiveBayes.
-# Нейронные сети. (базовое объяснение)
-# HMM (скрытые Марковские модели). (базовое объяснение)
-=== Направления развития ===
-# Расширение списка извлекаемых сущностей.
-# Извлечение информации о сущностях (например, должность для человека).
-# Разрешение кореферентных связей
-# Пользовательский интерфейс (на любом ЯП) для ручной разметки корпуса и корректировки работы алгоритма.
-=== Критерии оценки ===
-* 4-5: реализация алгоритма машинного обучения с f-мерой > 0.5
-* 6-7: реализация алгоритма машинного обучения с f-мерой > 0.6
-* 8-9: реализация алгоритма машинного обучения с f-мерой > 0.7
-* 10: реализация алгоритма машинного обучения с f-мерой > 0.8 или реализация комбинации нескольких методов с f-мерой > 0.7
-+ 1 балл: использование лексико-синтаксических правил (Томита-парсер, LSPL и т.п.)<br />
-+ 1 балл: реализация пользовательского интерфейса (на любом ЯП) для ручной разметки корпуса и корректировки работы алгоритма.<br />
-+ 2 балла: извлечение информации о сущности (предварительно согласовать тип извлекаемой информации с ментором)<br />
-Критерии могут варьироваться в зависимости от максимального результата по группе.
-=== Ориентировочное расписание занятий ===

Извлечение именованных сущностей из текстов (проект) — различия между версиями

Текущая версия на 12:22, 2 октября 2016

Навигация

Персональные инструменты

Пространства имён

Варианты

Просмотры

Действия

Поиск

Навигация

Инструменты