Разработка сервиса классификации и извлечения информации из документов — различия между версиями

Версия 14:57, 18 сентября 2017


Компания	OpenTRM (Open Trade and Risk Management)
Учебный семестр	Осень 2017
Учебный курс	3-й курс
Максимальное количество студентов, выбравших проект: 3-5
Содержание 1 Что это за проект? 2 Чему научатся студенты? Что самое интересное в проекте? 3 Организация работы (Как студенты будут работать в команде?) 4 Компоненты (Из каких частей состоит проект?) 5 Какие будут использоваться технологии? 6 Какие начальные требования? 7 Темы вводных занятий 8 Критерии оценки 9 Похожие проекты 10 Контактная информация

Что это за проект?

В рамках данного проекта студентам предлагается участвовать в разработке прототипа продукта/сервиса который осуществляет анализ сканов документов произвольного формата (PDF файлы) для распределения их по заданным классам и извлечения из них необходимой информации. Несмотря на наличие подобных продуктов на рынке, большинство существующих продуктов ориентированы на использование заранее определенных шаблонов на извлечение информации (например, шаблон налоговой декларации или счета-фактуры). Разрабатываемый продукт применяет модели построенные на алгоритмах машинного обучения, которые ориентируются на формирование обучающей выборки на основе прошлой истории классификации документов и извлечения информации вручную. Это позволяет настроить прототип на корректную работу с инструментами автоматически в процессе обучения и без дополнительной настройки шаблонов документов.

Чему научатся студенты? Что самое интересное в проекте?

-Формулировать постановку задачи -Проводить разработку в изменяющихся условиях и требованиях -Участвовать в проекте по разработке прототипа продукта и выводе продукта на рынок (в команде, не индивидуально!) -Применять алгоритмы машинного обучения для статистической обработки финансовой информации -Применять современные техники обработки текстовой информации и извлечения информации (IE - Infromation Extraction)

Организация работы (Как студенты будут работать в команде?)

Организация разработки и взаимодействие на проекте будет построено по Scrum:

- Все студенты участники Scrum команды - Product Owner от OpenTRM - Scrum Master от OpenTRM

Детали и подробности организации на вводных занятиях

Компоненты (Из каких частей состоит проект?)

1. Знакомство с существующими наработками 2. Формирование бизнес-требований, обсуждение и дизайн прототипа продукта (MVP, MLP) 3. Планирование и проведение спринтов по разработке прототипа продукта 5. Проведение демонстраций 6. Документирование и закрытие проекта

Какие будут использоваться технологии?

Python/C++ DB: PostgreSQL/Oracle/Microsoft SQL/Mongo DB ML: Keras/Theano(TensorFlow)/SciKit-Learn Text processing: NLTK Собственные библиотеки обработки данных

Какие начальные требования?

test

Темы вводных занятий

test

Критерии оценки

test

Контактная информация

test

Разработка сервиса классификации и извлечения информации из документов — различия между версиями

Версия 14:57, 18 сентября 2017

Содержание

Что это за проект?

Чему научатся студенты? Что самое интересное в проекте?

Организация работы (Как студенты будут работать в команде?)

Компоненты (Из каких частей состоит проект?)

Какие будут использоваться технологии?

Какие начальные требования?

Темы вводных занятий

Критерии оценки

Похожие проекты

Контактная информация

Навигация

Персональные инструменты

Пространства имён

Варианты

Просмотры

Действия

Поиск

Навигация

Инструменты

@@ Строка 36: / Строка 36: @@
 === Какие будут использоваться технологии? ===
-test
+Python/C++
+DB: PostgreSQL/Oracle/Microsoft SQL/Mongo DB
+ML: Keras/Theano(TensorFlow)/SciKit-Learn
+Text processing: NLTK
+Собственные библиотеки обработки данных
 === Какие начальные требования? ===