Разработка сервиса классификации и извлечения информации из документов — различия между версиями

Материал из Wiki - Факультет компьютерных наук
Перейти к: навигация, поиск
м (Откат правок Seosky (обсуждение) к версии Ivan.Lisenkov)
 
(не показано 12 промежуточных версии 2 участников)
Строка 12: Строка 12:
  
 
=== Чему научатся студенты? Что самое интересное в проекте? ===
 
=== Чему научатся студенты? Что самое интересное в проекте? ===
-Формулировать постановку задачи
+
-Формулировать постановку задачи<br />
-Проводить разработку в изменяющихся условиях и требованиях
+
-Проводить разработку в изменяющихся условиях и требованиях<br />
-Участвовать в проекте по разработке прототипа продукта и выводе продукта на рынок (в команде, не индивидуально!)
+
-Участвовать в проекте по разработке прототипа продукта и выводе продукта на рынок (в команде, не индивидуально!)<br />
-Применять алгоритмы машинного обучения для статистической обработки финансовой информации
+
-Применять алгоритмы машинного обучения для статистической обработки финансовой информации<br />
 
-Применять современные техники обработки текстовой информации и извлечения информации (IE - Infromation Extraction)
 
-Применять современные техники обработки текстовой информации и извлечения информации (IE - Infromation Extraction)
  
 
=== Организация работы (Как студенты будут работать в команде?) ===
 
=== Организация работы (Как студенты будут работать в команде?) ===
Организация разработки и взаимодействие на проекте будет построено по Scrum:
+
Организация разработки и взаимодействие на проекте будет построено по Scrum:<br />
  
- Все студенты участники Scrum команды
+
- Все студенты участники Scrum команды<br />
- Product Owner от OpenTRM
+
- Product Owner от OpenTRM<br />
- Scrum Master от OpenTRM
+
- Scrum Master от OpenTRM<br />
  
 
Детали и подробности организации на вводных занятиях
 
Детали и подробности организации на вводных занятиях
Строка 29: Строка 29:
 
=== Компоненты (Из каких частей состоит проект?) ===
 
=== Компоненты (Из каких частей состоит проект?) ===
  
1. Знакомство с существующими наработками
+
1. Знакомство с существующими наработками<br />
2. Формирование бизнес-требований, обсуждение и дизайн прототипа продукта (MVP, MLP)
+
2. Формирование бизнес-требований, обсуждение и дизайн прототипа продукта (MVP, MLP)<br />
3. Планирование и проведение спринтов по разработке прототипа продукта
+
3. Планирование и проведение спринтов по разработке прототипа продукта<br />
5. Проведение демонстраций
+
5. Проведение демонстраций<br />
6. Документирование и закрытие проекта
+
6. Документирование и закрытие проекта<br />
  
 
=== Какие будут использоваться технологии? ===
 
=== Какие будут использоваться технологии? ===
Python/C++
+
Language: Python<br />
DB: PostgreSQL/Oracle/Microsoft SQL/Mongo DB
+
DB: PostgreSQL/Oracle/Microsoft SQL/Mongo DB<br />
ML: Keras/Theano(TensorFlow)/SciKit-Learn
+
ML: Keras/Theano(TensorFlow)/SciKit-Learn<br />
Text processing: NLTK
+
Text processing: NLTK<br />
Собственные библиотеки обработки данных
+
Propriertary libraries to data processing<br />
  
 
=== Какие начальные требования? ===
 
=== Какие начальные требования? ===
- Хорошая теоретическая подготовка (Линейная Алгебра, Методы оптимизации, Математическая статистика ...)
+
- Хорошая теоретическая подготовка (Линейная Алгебра, Методы оптимизации, Математическая статистика ...)<br />
- Готовность брать на себя ответственность и умение работать в команде (внимание! это НЕ индивидуальный проект!)
+
- Готовность брать на себя ответственность и умение работать в команде (внимание! это НЕ индивидуальный проект!)<br />
- Программирование на C(C++)/Python (в рамках прослушанного курса)
+
- Программирование на C(C++)/Python (в рамках прослушанного курса)<br />
- Знание SQL желательно
+
- Знание SQL желательно<br />
  
 
=== Темы вводных занятий ===
 
=== Темы вводных занятий ===
- Основы управления проектами и работа в команде (Классическая организация работ - Water Fall, Agile, Scrum, Kanban, разбор кейсов, мастер классы)
+
- Основы управления проектами и работа в команде (Классическая организация работ - Water Fall, Agile, Scrum, Kanban, разбор кейсов, мастер классы)<br />
- Основы теории нейронных сетей (Модель Маккалока-Пиитса, Персептрон Розенблатта, Многослойная нейронная сеть, Алгоритм обучения многослойной нейронной сети методом обратного распространения ошибки)
+
- Основы теории нейронных сетей (Модель Маккалока-Пиитса, Персептрон Розенблатта, Многослойная нейронная сеть, Алгоритм обучения многослойной нейронной сети методом обратного распространения ошибки)<br />
- Основы проведения презентации
+
- Основы проведения презентации<br />
  
 
=== Критерии оценки ===
 
=== Критерии оценки ===
4-5: Участие в проектных семинарах, планировании и оценки задач, подготовка прототипа и необходимой документации согласно выбранной задаче;
+
4-5: Участие в проектных семинарах, планировании и оценки задач, подготовка прототипа и необходимой документации согласно выбранной задаче;<br />
6-7: Участие в разработке прототипа до уровня MVP; Проведение демонстрации части функционала прототипа ( каждый студент). Хотя бы один раз  за проект коэффициент Scrum команды > 0.5
+
6-7: Участие в разработке прототипа до уровня MVP; Проведение демонстрации части функционала прототипа ( каждый студент). Хотя бы один раз  за проект коэффициент Scrum команды > 0.5<br />
8-10: Хотя бы один раз  за проект коэффициент Scrum команды > 0.8
+
8-10: Хотя бы один раз  за проект коэффициент Scrum команды > 0.8<br />
  
 
=== Похожие проекты ===
 
=== Похожие проекты ===
Строка 62: Строка 62:
  
 
=== Контактная информация ===
 
=== Контактная информация ===
E-mail: ivan.lisenkov@gmail.ru
+
E-mail: ivan.lisenkov@gmail.ru<br />
 
Телефон: +7(916)687-87-06
 
Телефон: +7(916)687-87-06

Текущая версия на 13:37, 26 августа 2022

Компания OpenTRM (Open Trade and Risk Management)
Учебный семестр Осень 2017
Учебный курс 3-й курс
Максимальное количество студентов, выбравших проект: 3-5



Что это за проект?

В рамках данного проекта студентам предлагается участвовать в разработке прототипа продукта/сервиса который осуществляет анализ сканов документов произвольного формата (PDF файлы) для распределения их по заданным классам и извлечения из них необходимой информации. Несмотря на наличие подобных продуктов на рынке, большинство существующих продуктов ориентированы на использование заранее определенных шаблонов на извлечение информации (например, шаблон налоговой декларации или счета-фактуры). Разрабатываемый продукт применяет модели построенные на алгоритмах машинного обучения, которые ориентируются на формирование обучающей выборки на основе прошлой истории классификации документов и извлечения информации вручную. Это позволяет настроить прототип на корректную работу с инструментами автоматически в процессе обучения и без дополнительной настройки шаблонов документов.

Чему научатся студенты? Что самое интересное в проекте?

-Формулировать постановку задачи
-Проводить разработку в изменяющихся условиях и требованиях
-Участвовать в проекте по разработке прототипа продукта и выводе продукта на рынок (в команде, не индивидуально!)
-Применять алгоритмы машинного обучения для статистической обработки финансовой информации
-Применять современные техники обработки текстовой информации и извлечения информации (IE - Infromation Extraction)

Организация работы (Как студенты будут работать в команде?)

Организация разработки и взаимодействие на проекте будет построено по Scrum:

- Все студенты участники Scrum команды
- Product Owner от OpenTRM
- Scrum Master от OpenTRM

Детали и подробности организации на вводных занятиях

Компоненты (Из каких частей состоит проект?)

1. Знакомство с существующими наработками
2. Формирование бизнес-требований, обсуждение и дизайн прототипа продукта (MVP, MLP)
3. Планирование и проведение спринтов по разработке прототипа продукта
5. Проведение демонстраций
6. Документирование и закрытие проекта

Какие будут использоваться технологии?

Language: Python
DB: PostgreSQL/Oracle/Microsoft SQL/Mongo DB
ML: Keras/Theano(TensorFlow)/SciKit-Learn
Text processing: NLTK
Propriertary libraries to data processing

Какие начальные требования?

- Хорошая теоретическая подготовка (Линейная Алгебра, Методы оптимизации, Математическая статистика ...)
- Готовность брать на себя ответственность и умение работать в команде (внимание! это НЕ индивидуальный проект!)
- Программирование на C(C++)/Python (в рамках прослушанного курса)
- Знание SQL желательно

Темы вводных занятий

- Основы управления проектами и работа в команде (Классическая организация работ - Water Fall, Agile, Scrum, Kanban, разбор кейсов, мастер классы)
- Основы теории нейронных сетей (Модель Маккалока-Пиитса, Персептрон Розенблатта, Многослойная нейронная сеть, Алгоритм обучения многослойной нейронной сети методом обратного распространения ошибки)
- Основы проведения презентации

Критерии оценки

4-5: Участие в проектных семинарах, планировании и оценки задач, подготовка прототипа и необходимой документации согласно выбранной задаче;
6-7: Участие в разработке прототипа до уровня MVP; Проведение демонстрации части функционала прототипа ( каждый студент). Хотя бы один раз за проект коэффициент Scrum команды > 0.5
8-10: Хотя бы один раз за проект коэффициент Scrum команды > 0.8

Похожие проекты

http://wiki.cs.hse.ru/%D0%90%D0%BD%D0%B0%D0%BB%D0%B8%D0%B7_%D1%81%D1%82%D0%B0%D1%82%D0%B8%D1%81%D1%82%D0%B8%D1%87%D0%B5%D1%81%D0%BA%D0%BE%D0%B9_%D0%B8%D0%BD%D1%84%D0%BE%D1%80%D0%BC%D0%B0%D1%86%D0%B8%D0%B8_%D1%84%D0%B8%D0%BD%D0%B0%D0%BD%D1%81%D0%BE%D0%B2%D1%8B%D1%85_%D1%80%D1%8B%D0%BD%D0%BA%D0%BE%D0%B2_%D1%81_%D0%B8%D1%81%D0%BF%D0%BE%D0%BB%D1%8C%D0%B7%D0%BE%D0%B2%D0%B0%D0%BD%D0%B8%D0%B5%D0%BC_%D0%B0%D0%BB%D0%B3%D0%BE%D1%80%D0%B8%D1%82%D0%BC%D0%BE%D0%B2_%D0%BC%D0%B0%D1%88%D0%B8%D0%BD%D0%BD%D0%BE%D0%B3%D0%BE_%D0%BE%D0%B1%D1%83%D1%87%D0%B5%D0%BD%D0%B8%D1%8F_%D0%B8_%D0%BD%D0%B5%D1%87%D0%B5%D1%82%D0%BA%D0%BE%D0%B9_%D0%BB%D0%BE%D0%B3%D0%B8%D0%BA%D0%B8_(%D0%BA%D0%BE%D0%BC%D0%B0%D0%BD%D0%B4%D0%BD%D1%8B%D0%B9_%D0%BF%D1%80%D0%BE%D0%B5%D0%BA%D1%82)

Контактная информация

E-mail: ivan.lisenkov@gmail.ru
Телефон: +7(916)687-87-06