Разработка сервиса классификации и извлечения информации из документов — различия между версиями

Материал из Wiki - Факультет компьютерных наук
Перейти к: навигация, поиск
Строка 55: Строка 55:
  
 
=== Похожие проекты ===
 
=== Похожие проекты ===
test
+
http://wiki.cs.hse.ru/%D0%90%D0%BD%D0%B0%D0%BB%D0%B8%D0%B7_%D1%81%D1%82%D0%B0%D1%82%D0%B8%D1%81%D1%82%D0%B8%D1%87%D0%B5%D1%81%D0%BA%D0%BE%D0%B9_%D0%B8%D0%BD%D1%84%D0%BE%D1%80%D0%BC%D0%B0%D1%86%D0%B8%D0%B8_%D1%84%D0%B8%D0%BD%D0%B0%D0%BD%D1%81%D0%BE%D0%B2%D1%8B%D1%85_%D1%80%D1%8B%D0%BD%D0%BA%D0%BE%D0%B2_%D1%81_%D0%B8%D1%81%D0%BF%D0%BE%D0%BB%D1%8C%D0%B7%D0%BE%D0%B2%D0%B0%D0%BD%D0%B8%D0%B5%D0%BC_%D0%B0%D0%BB%D0%B3%D0%BE%D1%80%D0%B8%D1%82%D0%BC%D0%BE%D0%B2_%D0%BC%D0%B0%D1%88%D0%B8%D0%BD%D0%BD%D0%BE%D0%B3%D0%BE_%D0%BE%D0%B1%D1%83%D1%87%D0%B5%D0%BD%D0%B8%D1%8F_%D0%B8_%D0%BD%D0%B5%D1%87%D0%B5%D1%82%D0%BA%D0%BE%D0%B9_%D0%BB%D0%BE%D0%B3%D0%B8%D0%BA%D0%B8_(%D0%BA%D0%BE%D0%BC%D0%B0%D0%BD%D0%B4%D0%BD%D1%8B%D0%B9_%D0%BF%D1%80%D0%BE%D0%B5%D0%BA%D1%82)
  
 
=== Контактная информация ===
 
=== Контактная информация ===
 
test
 
test

Версия 14:58, 18 сентября 2017

Компания OpenTRM (Open Trade and Risk Management)
Учебный семестр Осень 2017
Учебный курс 3-й курс
Максимальное количество студентов, выбравших проект: 3-5



Что это за проект?

В рамках данного проекта студентам предлагается участвовать в разработке прототипа продукта/сервиса который осуществляет анализ сканов документов произвольного формата (PDF файлы) для распределения их по заданным классам и извлечения из них необходимой информации. Несмотря на наличие подобных продуктов на рынке, большинство существующих продуктов ориентированы на использование заранее определенных шаблонов на извлечение информации (например, шаблон налоговой декларации или счета-фактуры). Разрабатываемый продукт применяет модели построенные на алгоритмах машинного обучения, которые ориентируются на формирование обучающей выборки на основе прошлой истории классификации документов и извлечения информации вручную. Это позволяет настроить прототип на корректную работу с инструментами автоматически в процессе обучения и без дополнительной настройки шаблонов документов.

Чему научатся студенты? Что самое интересное в проекте?

-Формулировать постановку задачи -Проводить разработку в изменяющихся условиях и требованиях -Участвовать в проекте по разработке прототипа продукта и выводе продукта на рынок (в команде, не индивидуально!) -Применять алгоритмы машинного обучения для статистической обработки финансовой информации -Применять современные техники обработки текстовой информации и извлечения информации (IE - Infromation Extraction)

Организация работы (Как студенты будут работать в команде?)

Организация разработки и взаимодействие на проекте будет построено по Scrum:

- Все студенты участники Scrum команды - Product Owner от OpenTRM - Scrum Master от OpenTRM

Детали и подробности организации на вводных занятиях

Компоненты (Из каких частей состоит проект?)

1. Знакомство с существующими наработками 2. Формирование бизнес-требований, обсуждение и дизайн прототипа продукта (MVP, MLP) 3. Планирование и проведение спринтов по разработке прототипа продукта 5. Проведение демонстраций 6. Документирование и закрытие проекта

Какие будут использоваться технологии?

Python/C++ DB: PostgreSQL/Oracle/Microsoft SQL/Mongo DB ML: Keras/Theano(TensorFlow)/SciKit-Learn Text processing: NLTK Собственные библиотеки обработки данных

Какие начальные требования?

- Хорошая теоретическая подготовка (Линейная Алгебра, Методы оптимизации, Математическая статистика ...) - Готовность брать на себя ответственность и умение работать в команде (внимание! это НЕ индивидуальный проект!) - Программирование на C(C++)/Python (в рамках прослушанного курса) - Знание SQL желательно

Темы вводных занятий

test

Критерии оценки

test

Похожие проекты

http://wiki.cs.hse.ru/%D0%90%D0%BD%D0%B0%D0%BB%D0%B8%D0%B7_%D1%81%D1%82%D0%B0%D1%82%D0%B8%D1%81%D1%82%D0%B8%D1%87%D0%B5%D1%81%D0%BA%D0%BE%D0%B9_%D0%B8%D0%BD%D1%84%D0%BE%D1%80%D0%BC%D0%B0%D1%86%D0%B8%D0%B8_%D1%84%D0%B8%D0%BD%D0%B0%D0%BD%D1%81%D0%BE%D0%B2%D1%8B%D1%85_%D1%80%D1%8B%D0%BD%D0%BA%D0%BE%D0%B2_%D1%81_%D0%B8%D1%81%D0%BF%D0%BE%D0%BB%D1%8C%D0%B7%D0%BE%D0%B2%D0%B0%D0%BD%D0%B8%D0%B5%D0%BC_%D0%B0%D0%BB%D0%B3%D0%BE%D1%80%D0%B8%D1%82%D0%BC%D0%BE%D0%B2_%D0%BC%D0%B0%D1%88%D0%B8%D0%BD%D0%BD%D0%BE%D0%B3%D0%BE_%D0%BE%D0%B1%D1%83%D1%87%D0%B5%D0%BD%D0%B8%D1%8F_%D0%B8_%D0%BD%D0%B5%D1%87%D0%B5%D1%82%D0%BA%D0%BE%D0%B9_%D0%BB%D0%BE%D0%B3%D0%B8%D0%BA%D0%B8_(%D0%BA%D0%BE%D0%BC%D0%B0%D0%BD%D0%B4%D0%BD%D1%8B%D0%B9_%D0%BF%D1%80%D0%BE%D0%B5%D0%BA%D1%82)

Контактная информация

test