Разработка сервиса классификации и извлечения информации из документов — различия между версиями
Mednik (обсуждение | вклад) м (Откат правок Seosky (обсуждение) к версии Ivan.Lisenkov) |
|||
(не показано 12 промежуточных версии 2 участников) | |||
Строка 12: | Строка 12: | ||
=== Чему научатся студенты? Что самое интересное в проекте? === | === Чему научатся студенты? Что самое интересное в проекте? === | ||
− | -Формулировать постановку задачи | + | -Формулировать постановку задачи<br /> |
− | -Проводить разработку в изменяющихся условиях и требованиях | + | -Проводить разработку в изменяющихся условиях и требованиях<br /> |
− | -Участвовать в проекте по разработке прототипа продукта и выводе продукта на рынок (в команде, не индивидуально!) | + | -Участвовать в проекте по разработке прототипа продукта и выводе продукта на рынок (в команде, не индивидуально!)<br /> |
− | -Применять алгоритмы машинного обучения для статистической обработки финансовой информации | + | -Применять алгоритмы машинного обучения для статистической обработки финансовой информации<br /> |
-Применять современные техники обработки текстовой информации и извлечения информации (IE - Infromation Extraction) | -Применять современные техники обработки текстовой информации и извлечения информации (IE - Infromation Extraction) | ||
=== Организация работы (Как студенты будут работать в команде?) === | === Организация работы (Как студенты будут работать в команде?) === | ||
− | Организация разработки и взаимодействие на проекте будет построено по Scrum: | + | Организация разработки и взаимодействие на проекте будет построено по Scrum:<br /> |
− | - Все студенты участники Scrum команды | + | - Все студенты участники Scrum команды<br /> |
− | - Product Owner от OpenTRM | + | - Product Owner от OpenTRM<br /> |
− | - Scrum Master от OpenTRM | + | - Scrum Master от OpenTRM<br /> |
Детали и подробности организации на вводных занятиях | Детали и подробности организации на вводных занятиях | ||
Строка 29: | Строка 29: | ||
=== Компоненты (Из каких частей состоит проект?) === | === Компоненты (Из каких частей состоит проект?) === | ||
− | 1. Знакомство с существующими наработками | + | 1. Знакомство с существующими наработками<br /> |
− | 2. Формирование бизнес-требований, обсуждение и дизайн прототипа продукта (MVP, MLP) | + | 2. Формирование бизнес-требований, обсуждение и дизайн прототипа продукта (MVP, MLP)<br /> |
− | 3. Планирование и проведение спринтов по разработке прототипа продукта | + | 3. Планирование и проведение спринтов по разработке прототипа продукта<br /> |
− | 5. Проведение демонстраций | + | 5. Проведение демонстраций<br /> |
− | 6. Документирование и закрытие проекта | + | 6. Документирование и закрытие проекта<br /> |
=== Какие будут использоваться технологии? === | === Какие будут использоваться технологии? === | ||
− | Python/ | + | Language: Python<br /> |
− | DB: PostgreSQL/Oracle/Microsoft SQL/Mongo DB | + | DB: PostgreSQL/Oracle/Microsoft SQL/Mongo DB<br /> |
− | ML: Keras/Theano(TensorFlow)/SciKit-Learn | + | ML: Keras/Theano(TensorFlow)/SciKit-Learn<br /> |
− | Text processing: NLTK | + | Text processing: NLTK<br /> |
− | + | Propriertary libraries to data processing<br /> | |
=== Какие начальные требования? === | === Какие начальные требования? === | ||
− | - Хорошая теоретическая подготовка (Линейная Алгебра, Методы оптимизации, Математическая статистика ...) | + | - Хорошая теоретическая подготовка (Линейная Алгебра, Методы оптимизации, Математическая статистика ...)<br /> |
− | - Готовность брать на себя ответственность и умение работать в команде (внимание! это НЕ индивидуальный проект!) | + | - Готовность брать на себя ответственность и умение работать в команде (внимание! это НЕ индивидуальный проект!)<br /> |
− | - Программирование на C(C++)/Python (в рамках прослушанного курса) | + | - Программирование на C(C++)/Python (в рамках прослушанного курса)<br /> |
− | - Знание SQL желательно | + | - Знание SQL желательно<br /> |
=== Темы вводных занятий === | === Темы вводных занятий === | ||
− | - Основы управления проектами и работа в команде (Классическая организация работ - Water Fall, Agile, Scrum, Kanban, разбор кейсов, мастер классы) | + | - Основы управления проектами и работа в команде (Классическая организация работ - Water Fall, Agile, Scrum, Kanban, разбор кейсов, мастер классы)<br /> |
− | - Основы теории нейронных сетей (Модель Маккалока-Пиитса, Персептрон Розенблатта, Многослойная нейронная сеть, Алгоритм обучения многослойной нейронной сети методом обратного распространения ошибки) | + | - Основы теории нейронных сетей (Модель Маккалока-Пиитса, Персептрон Розенблатта, Многослойная нейронная сеть, Алгоритм обучения многослойной нейронной сети методом обратного распространения ошибки)<br /> |
− | - Основы проведения презентации | + | - Основы проведения презентации<br /> |
=== Критерии оценки === | === Критерии оценки === | ||
− | 4-5: Участие в проектных семинарах, планировании и оценки задач, подготовка прототипа и необходимой документации согласно выбранной задаче; | + | 4-5: Участие в проектных семинарах, планировании и оценки задач, подготовка прототипа и необходимой документации согласно выбранной задаче;<br /> |
− | 6-7: Участие в разработке прототипа до уровня MVP; Проведение демонстрации части функционала прототипа ( каждый студент). Хотя бы один раз за проект коэффициент Scrum команды > 0.5 | + | 6-7: Участие в разработке прототипа до уровня MVP; Проведение демонстрации части функционала прототипа ( каждый студент). Хотя бы один раз за проект коэффициент Scrum команды > 0.5<br /> |
− | 8-10: Хотя бы один раз за проект коэффициент Scrum команды > 0.8 | + | 8-10: Хотя бы один раз за проект коэффициент Scrum команды > 0.8<br /> |
=== Похожие проекты === | === Похожие проекты === | ||
Строка 62: | Строка 62: | ||
=== Контактная информация === | === Контактная информация === | ||
− | E-mail: ivan.lisenkov@gmail.ru | + | E-mail: ivan.lisenkov@gmail.ru<br /> |
Телефон: +7(916)687-87-06 | Телефон: +7(916)687-87-06 |
Текущая версия на 13:37, 26 августа 2022
Компания | OpenTRM (Open Trade and Risk Management) |
Учебный семестр | Осень 2017 |
Учебный курс | 3-й курс |
Максимальное количество студентов, выбравших проект: 3-5 | |
Содержание
|
Что это за проект?
В рамках данного проекта студентам предлагается участвовать в разработке прототипа продукта/сервиса который осуществляет анализ сканов документов произвольного формата (PDF файлы) для распределения их по заданным классам и извлечения из них необходимой информации. Несмотря на наличие подобных продуктов на рынке, большинство существующих продуктов ориентированы на использование заранее определенных шаблонов на извлечение информации (например, шаблон налоговой декларации или счета-фактуры). Разрабатываемый продукт применяет модели построенные на алгоритмах машинного обучения, которые ориентируются на формирование обучающей выборки на основе прошлой истории классификации документов и извлечения информации вручную. Это позволяет настроить прототип на корректную работу с инструментами автоматически в процессе обучения и без дополнительной настройки шаблонов документов.
Чему научатся студенты? Что самое интересное в проекте?
-Формулировать постановку задачи
-Проводить разработку в изменяющихся условиях и требованиях
-Участвовать в проекте по разработке прототипа продукта и выводе продукта на рынок (в команде, не индивидуально!)
-Применять алгоритмы машинного обучения для статистической обработки финансовой информации
-Применять современные техники обработки текстовой информации и извлечения информации (IE - Infromation Extraction)
Организация работы (Как студенты будут работать в команде?)
Организация разработки и взаимодействие на проекте будет построено по Scrum:
- Все студенты участники Scrum команды
- Product Owner от OpenTRM
- Scrum Master от OpenTRM
Детали и подробности организации на вводных занятиях
Компоненты (Из каких частей состоит проект?)
1. Знакомство с существующими наработками
2. Формирование бизнес-требований, обсуждение и дизайн прототипа продукта (MVP, MLP)
3. Планирование и проведение спринтов по разработке прототипа продукта
5. Проведение демонстраций
6. Документирование и закрытие проекта
Какие будут использоваться технологии?
Language: Python
DB: PostgreSQL/Oracle/Microsoft SQL/Mongo DB
ML: Keras/Theano(TensorFlow)/SciKit-Learn
Text processing: NLTK
Propriertary libraries to data processing
Какие начальные требования?
- Хорошая теоретическая подготовка (Линейная Алгебра, Методы оптимизации, Математическая статистика ...)
- Готовность брать на себя ответственность и умение работать в команде (внимание! это НЕ индивидуальный проект!)
- Программирование на C(C++)/Python (в рамках прослушанного курса)
- Знание SQL желательно
Темы вводных занятий
- Основы управления проектами и работа в команде (Классическая организация работ - Water Fall, Agile, Scrum, Kanban, разбор кейсов, мастер классы)
- Основы теории нейронных сетей (Модель Маккалока-Пиитса, Персептрон Розенблатта, Многослойная нейронная сеть, Алгоритм обучения многослойной нейронной сети методом обратного распространения ошибки)
- Основы проведения презентации
Критерии оценки
4-5: Участие в проектных семинарах, планировании и оценки задач, подготовка прототипа и необходимой документации согласно выбранной задаче;
6-7: Участие в разработке прототипа до уровня MVP; Проведение демонстрации части функционала прототипа ( каждый студент). Хотя бы один раз за проект коэффициент Scrum команды > 0.5
8-10: Хотя бы один раз за проект коэффициент Scrum команды > 0.8
Похожие проекты
Контактная информация
E-mail: ivan.lisenkov@gmail.ru
Телефон: +7(916)687-87-06