Разработка модуля распознавания текста из видеоизображения (командный проект)

Материал из Wiki - Факультет компьютерных наук
Перейти к: навигация, поиск
Компания On-Air.Pro
Учебный семестр Осень 2017
Учебный курс 3-й курс
Максимальное количество студентов, выбравших проект: 4-6



Что это за проект?

Распознавание текста из видео/фото изображений дополняет сервис распознавания голоса из аудио и видео (как файлов, так и потоков).

Основная область применения -- мониторинг телевизионных программ различными мониторинговыми службами. Основной объект для распознавания -- бегущие строки и субтитры (lower thirds), но на деле объекты могут быть не только текстовыми (вылавливать логотипы и другие эталонные изображения и надписи, регистрировать их размер).

Чему научатся студенты? Что самое интересное в проекте?

Обработка видеопотоков, файлов и фотоизображений с целью распознавания текстов и изображений по заданным шаблонам.

Организация работы (Как студенты будут работать в команде?)

Роли и точный состав работ формируется по итогам регистрации желающих участвовать (команда может быть смешанной, в т.ч. со студентами МИЭМ и других факультетов, аналогичная тема заявлена на ярмарке проектов.

Далее организуется slack и трекер (обычно trello), где ведется рабочее общение и трекинг задач. Встречи -- по договоренности (на первых порах это понадобится точно) на Кочновском, альтернативный и более частый вариант -- аудио/видеосвязь. Удобно, т.к. можно собираться по актуальному вопросу безотлагательно и в любое время в любом составе.

Компоненеты (Из каких частей состоит проект?)

  • Пользовательский интерфейс
  • Распознавательный модуль
  • Модуль взаимодействия с внешним миром (потоки, хранилища).

Какие будут использоваться технологии?

  • Разработка на Ruby on Rails, JavaScript
  • Распознавание -- OpenCV + C++/Python
  • API GoogleDrive, работа с хранилищами FTP/WebDAV

Какие начальные требования?

В зависимости от роли в проекте:

  • OpenCV и навыки работы с распознаванием изображений.
  • Веб-разработка на Ruby on Rails

Темы вводных занятий

Не в порядке изложения:

1. Архитектура проекта. API, внешние связи и зависимости.

2. Специфические технологии и используемые инструменты.

3. Доступные ресурсы, организация доступа.

4. Разделение ролей

Критерии оценки

Про работу и оценки почитайте здесь: https://d.pr/143bq

Постарайтесь отнестись к этому с пониманием. Очень часто бодрое начало длится 3-4 недели и потом наступает тишина. Очень хочется, чтобы проекты доводились до запуска, а вы получали опыт успешной разработки и, возможно, работу в этих проектах уже в другом статусе. Но пока это для вас учебная работа, поэтому будем придерживаться описанных по ссылке правил и критериев. Спасибо!

Похожие проекты

Такой функционал используется в специфических задачах медиаизмерений, софт там либо самописный, либо заказной, но популярных сервисов и программ с такими возможностями нет. Поисковые системы и видеоплатформы также анализируют контент для индексации и поиска. Например, Youtube ищет видео по содержимому, не описанному явно в метаданных загруженных файлов.

Проект является дополнением к следующему проекту, выставленному на ярмарку проектов ВШЭ (и в темы проектов здесь): https://pf.hse.ru/208036688.html

Контактная информация

Денис Королев,

https://www.hse.ru/staff/dkorolev (там есть ссылки на соцсети)

+7 903 610 3290 (месенджеры по вкусу)

d.korolev@gmail.com