Разработка сервиса классификации и извлечения информации из документов — различия между версиями

Текущая версия на 13:37, 26 августа 2022


Компания	OpenTRM (Open Trade and Risk Management)
Учебный семестр	Осень 2017
Учебный курс	3-й курс
Максимальное количество студентов, выбравших проект: 3-5
Содержание 1 Что это за проект? 2 Чему научатся студенты? Что самое интересное в проекте? 3 Организация работы (Как студенты будут работать в команде?) 4 Компоненты (Из каких частей состоит проект?) 5 Какие будут использоваться технологии? 6 Какие начальные требования? 7 Темы вводных занятий 8 Критерии оценки 9 Похожие проекты 10 Контактная информация

Что это за проект?

В рамках данного проекта студентам предлагается участвовать в разработке прототипа продукта/сервиса который осуществляет анализ сканов документов произвольного формата (PDF файлы) для распределения их по заданным классам и извлечения из них необходимой информации. Несмотря на наличие подобных продуктов на рынке, большинство существующих продуктов ориентированы на использование заранее определенных шаблонов на извлечение информации (например, шаблон налоговой декларации или счета-фактуры). Разрабатываемый продукт применяет модели построенные на алгоритмах машинного обучения, которые ориентируются на формирование обучающей выборки на основе прошлой истории классификации документов и извлечения информации вручную. Это позволяет настроить прототип на корректную работу с инструментами автоматически в процессе обучения и без дополнительной настройки шаблонов документов.

Чему научатся студенты? Что самое интересное в проекте?

-Формулировать постановку задачи
-Проводить разработку в изменяющихся условиях и требованиях
-Участвовать в проекте по разработке прототипа продукта и выводе продукта на рынок (в команде, не индивидуально!)
-Применять алгоритмы машинного обучения для статистической обработки финансовой информации
-Применять современные техники обработки текстовой информации и извлечения информации (IE - Infromation Extraction)

Организация работы (Как студенты будут работать в команде?)

Организация разработки и взаимодействие на проекте будет построено по Scrum:

- Все студенты участники Scrum команды
- Product Owner от OpenTRM
- Scrum Master от OpenTRM

Детали и подробности организации на вводных занятиях

Компоненты (Из каких частей состоит проект?)

1. Знакомство с существующими наработками
2. Формирование бизнес-требований, обсуждение и дизайн прототипа продукта (MVP, MLP)
3. Планирование и проведение спринтов по разработке прототипа продукта
5. Проведение демонстраций
6. Документирование и закрытие проекта

Какие будут использоваться технологии?

Language: Python
DB: PostgreSQL/Oracle/Microsoft SQL/Mongo DB
ML: Keras/Theano(TensorFlow)/SciKit-Learn
Text processing: NLTK
Propriertary libraries to data processing

Какие начальные требования?

- Хорошая теоретическая подготовка (Линейная Алгебра, Методы оптимизации, Математическая статистика ...)
- Готовность брать на себя ответственность и умение работать в команде (внимание! это НЕ индивидуальный проект!)
- Программирование на C(C++)/Python (в рамках прослушанного курса)
- Знание SQL желательно

Темы вводных занятий

- Основы управления проектами и работа в команде (Классическая организация работ - Water Fall, Agile, Scrum, Kanban, разбор кейсов, мастер классы)
- Основы теории нейронных сетей (Модель Маккалока-Пиитса, Персептрон Розенблатта, Многослойная нейронная сеть, Алгоритм обучения многослойной нейронной сети методом обратного распространения ошибки)
- Основы проведения презентации

Критерии оценки

4-5: Участие в проектных семинарах, планировании и оценки задач, подготовка прототипа и необходимой документации согласно выбранной задаче;
6-7: Участие в разработке прототипа до уровня MVP; Проведение демонстрации части функционала прототипа ( каждый студент). Хотя бы один раз за проект коэффициент Scrum команды > 0.5
8-10: Хотя бы один раз за проект коэффициент Scrum команды > 0.8

Контактная информация

E-mail: ivan.lisenkov@gmail.ru
Телефон: +7(916)687-87-06

Версия 17:07, 25 сентября 2017 (просмотреть исходный код) Ivan.Lisenkov (обсуждение \| вклад) ← Предыдущая правка	Текущая версия на 13:37, 26 августа 2022 (просмотреть исходный код) Mednik (обсуждение \| вклад) м (Откат правок Seosky (обсуждение) к версии Ivan.Lisenkov)
(не показана одна промежуточная версия ещё одного участника)
(нет различий)

Разработка сервиса классификации и извлечения информации из документов — различия между версиями

Текущая версия на 13:37, 26 августа 2022

Содержание

Что это за проект?

Чему научатся студенты? Что самое интересное в проекте?

Организация работы (Как студенты будут работать в команде?)

Компоненты (Из каких частей состоит проект?)

Какие будут использоваться технологии?

Какие начальные требования?

Темы вводных занятий

Критерии оценки

Похожие проекты

Контактная информация

Навигация

Персональные инструменты

Пространства имён

Варианты

Просмотры

Действия

Поиск

Навигация

Инструменты