Участник:Akonushin — различия между версиями

Материал из Wiki - Факультет компьютерных наук
Перейти к: навигация, поиск
(Темы на 2017-2018 учебный год)
Строка 21: Строка 21:
  
 
== Генеративные нейросетевые модели для синтеза обучающих данных (Generative cnn-based models for training data syntethis) ==
 
== Генеративные нейросетевые модели для синтеза обучающих данных (Generative cnn-based models for training data syntethis) ==
Нейросетевые модели для синтеза и обработки изображений бурно прогрессируют в последние пару лет. Одно из направлений их использования - подготовка обучающих данных для других алгоритмов компьютерного зрения, например обучения и классификации детекторов и распознавателей объектов. Предварительные эксперименты показывают, что качество генерируемых данных достаточно для обучения на уровне обучения по реальным данным. Есть разные направления работы в рамках этой темы - исследование conditional generative models, постобработка синтетических изображений для повышения визуального качества, модели для встраивания данных в изображение, эксперименты с прямым линейным преобразованием в пространстве признаков. Виды объектов - дорожные знаки, автомобили, люди.  
+
Нейросетевые модели для синтеза и обработки изображений бурно прогрессируют в последние пару лет. Одно из направлений их использования - подготовка обучающих данных для других алгоритмов компьютерного зрения, например обучения и классификации детекторов и распознавателей объектов. Предварительные эксперименты показывают, что качество генерируемых данных достаточно для обучения на уровне обучения по реальным данным. Есть разные направления работы в рамках этой темы - исследование conditional generative models, постобработка синтетических изображений для повышения визуального качества, модели для встраивания данных в изображение, эксперименты с прямым линейным преобразованием в пространстве признаков. Виды объектов - дорожные знаки, автомобили, люди.
  
== Автоматический выбор метапараметров нейросетевой модели выделения объектов (Automatic selection of metaparameters in object detection model) ==
+
== Распознавание объектов дорожной сцены для дополненной реальности (Road scene parsing for augmented reality) ==
Нейросетевая модель выделения объектов на изображении имеет ряд параметров, которые задает исследователь. Эти параметры зависят от конкретных типов наблюдаемых объектов, их пропорций, размеров в обучающей выборке и т.д. Например, одним из параметров является число гипотез о месте и форме объектов, в каждом анализируемом фрагменте изображения. Сейчас эти параметры выбираются вручную. Предлагается исследовать подходы в автоматическому выбору этих параметров на примерах задач выделения людей, голов и лиц людей в изображениях.
+
  
== Нейросетевая модель выделения и разбора групп людей (CNN-based model for detection and parsing of people groups)==
+
== Нейросетевые детекторы объектов (CNN-based object detectors) ==  
Обычный нейросетевой детектор выделяет отдельные объекты. В тех местах, где находятся группы близкостоящих людей, наблюдаются ошибки. Предлагается модифицировать имеющуюся нейросетевую модель таким образом, чтобы отдельно обрабатывать такие случаи.
+
В рамкамх
  
== Локализация головы, лица и точек на лице человека нейросетевой модель ( Head, face and facial features localization with cnn-based model) ==
+
== Нейросетевой детектор объектов для редких объектов (CNN-based object detector for rare classes) ==  
Детектор человека позволяет выделить человека на изображении. Однако для последующего анализа полезно определить, где находится (или где должна находиться) голова человека. Видно ли лицо человека? Если да, то где на лице контрольные точки (глаза, нос, рот, уши) и куда смотрит человек? Необходимо разработать модель, получающую на вход изображение фигуры человека, и определяющую указыванные параметры.
+
  
== Быстрая нейросетевая модель выделения лиц людей на изображении (Fast cnn-based model for face detection) ==
+
== Нейросетевой детектор голов и фигур людей для систем видеонаблюдения (CNN-based head and person detector for video surveillance) ==
 +
 
 +
== Ускорение нейросетевых детекторов (Speeding up of CNN-based detectors) ==  
 
Нейросетевые детекторы лиц людей на изображении работают сейчас очень хорошо, пусть и не идеально. Основное препятствие на пути использования этих методов в устройствах это их вычислительная сложность. Детектор лица работает порядка 200ms на изображение 1980*1080 на видеокарте Nvidia GTX 1070. Однако был предложен целый ряд методов, которые позволяют увеличить производительность нейросетевой модели. Предлагается исследовать применимость этих методов для ускорения детектора лиц.  
 
Нейросетевые детекторы лиц людей на изображении работают сейчас очень хорошо, пусть и не идеально. Основное препятствие на пути использования этих методов в устройствах это их вычислительная сложность. Детектор лица работает порядка 200ms на изображение 1980*1080 на видеокарте Nvidia GTX 1070. Однако был предложен целый ряд методов, которые позволяют увеличить производительность нейросетевой модели. Предлагается исследовать применимость этих методов для ускорения детектора лиц.  
  
== Повторная идентификация человека по изображению фигуры (Person reidentification) ==
+
== Генеративная нейросетевая модель изображения человека (Generative neural model for person images) ==
Необходимо реализовать нейросетевую модель отображения изображения фигуры человека в вектор-признак, кодирующий внешность человека. Сравнение изображений людей по таким признакам позволяет определить повторное появление человека в видеопотоке.
+
 
+
== Определение атрибутов человека по изображению фигуры (Attribute classification from person image) ==
+
Такие атрибуты человека, как пол, возраст, комплекция, можно определить, глядя на фотографию фигуры. Если известна "поза" человека, т.е. положение всех конечностей человека в кадре, то задача решается проще. Предлагается реализовать нейросетевую модель, на вход получающую изображение человека с размеченными частями тела, и определяющую атрибуты человека.
+
  
 +
== Локализация головы, лица и точек на лице человека нейросетевой модель ( Head, face and facial features localization with cnn-based model) ==
 +
Детектор человека позволяет выделить человека на изображении. Однако для последующего анализа полезно определить, где находится (или где должна находиться) голова человека. Видно ли лицо человека? Если да, то где на лице контрольные точки (глаза, нос, рот, уши) и куда смотрит человек? Необходимо разработать модель, получающую на вход изображение фигуры человека, и определяющую указыванные параметры.
  
 +
== Повторная идентификация и классификация атрибутов человека по изображению фигуры (Person reidentification and classification) ==
 +
Необходимо реализовать нейросетевую модель отображения изображения фигуры человека в вектор-признак, кодирующий внешность человека. Сравнение изображений людей по таким признакам позволяет определить повторное появление человека в видеопотоке. Также такие атрибуты человека, как пол, возраст, комплекция, можно определить, глядя на фотографию фигуры. Если известна "поза" человека, т.е. положение всех конечностей человека в кадре, то задача решается проще. Предлагается реализовать нейросетевую модель, на вход получающую изображение человека с размеченными частями тела, и определяющую атрибуты человека.
  
 
= Материалы =
 
= Материалы =

Версия 22:58, 12 октября 2017

Содержание

Обо мне

Меня зовут Конушин Антон. Я доцент департамент больших данных и информационного поиска ФКН НИУ ВШЭ и академический руководитель ОП "Прикладная математика и информатика". Также я руковожу лабораторией компьютерной графики и мультимедиа ВМК МГУ (http://graphics.cs.msu.ru/ru) и читаю лекции в Школе Анализа Данных Яндекса. Мои основные научные интересы - это компьютерное зрение, машинное обучение и компьютерная графика.

Научные интересы

Основное приложение методов компьютерного зрения, которое мне сейчас интересно, это "разбор видео", т.е. извлечение всей возможной информации из видеоданных. Главный рассматриваемый сейчас сценарий - это работа с данными видеонаблюдения. На выходе нужно получить всю возможную информацию - выделение всех людей, отслеживание их движения, определение их характеристик (пол, возраст), идентификация людей по лицу / походке / комплекции / одежде, вплоть до построения трёхмерной модели сцены в динамике.

Главный инструмент компьютерного зрения сейчас - это нейросетевые модели. Нейросети позволяют автоматических вычислять признаки из данных, и их обрабатывать. При этом решение многих задач можно строить в виде одной сложной нейросетевой модели. В этой области идёт бурный прогресс.

Структура предлагаемых КР и ВКР

Все темы КР и ВКР, которые я предлагаю в этом учебном году, связаны с построением, усовершенствованием и применением нейросетевых моделей для задач компьютерного зрения, в первую очередь для анализ видео с людьми. Поэтому общая схема выполнения всех КР и ВКР будет примерно следующая:

1) (Рекомендовано) Знакомство с нейросетями. Для этого нужно выполнить 2-3 небольших практических упражнений по нейросетям, на базе одного из фреймворков (Keras). Это позволит освоить ряд основных принципов работы с нейросетями для изображений (размножение данных, задание правильных функций потерь при обучении, использование предобученных моделей и дообучение и т.д.) 2)Изучение набора базовых статей по теме (ключевые статьи в целом по нейросетям в зрении, набор конкретных по рассматриваемым моделям) 3) Выбор конкретной модели и её реализации как базового алгоритма. Для многих задач есть готовые реализации. В этом случае нужно освоить реализацию - т.е. научиться обучать модель на своих данных, измерять качество, анализировать такую работу. В некоторых случаях конкретную модель предлагаю я, в других случаях её нужно будет выбрать самостоятельно по результатам проведённого обзора (п.2). Если модели в открытых источниках нет, тогда нужно будет выполнить самостоятельную реализацию этой модели. В зависимости от выбранной модели может потребоваться дополнительно изучить другой фреймворк нейросетей (Caffe, TensorFlow, Torch). 4) Собственно исследовательская часть, которая включает в себя проверку некоторой гипотезы о развитии этой модели, доработку модели, сбор данных и т.д. 5) Текст КР. Если есть интересный, пусть небольшой, научный результат, тогда нужно будет написать по тексту диплома статью и подавать её.

В ходе выполнения курсовой работы на практике можно освоить работу с нейросетевыми моделями, изучать 1-2 фреймворка, научиться применять модели для решения конкретных задач анализа изображений. В зависимости от успехов можно будет успеть провести небольшое законченное исследование.

Темы на 2017-2018 учебный год

Генеративные нейросетевые модели для синтеза обучающих данных (Generative cnn-based models for training data syntethis)

Нейросетевые модели для синтеза и обработки изображений бурно прогрессируют в последние пару лет. Одно из направлений их использования - подготовка обучающих данных для других алгоритмов компьютерного зрения, например обучения и классификации детекторов и распознавателей объектов. Предварительные эксперименты показывают, что качество генерируемых данных достаточно для обучения на уровне обучения по реальным данным. Есть разные направления работы в рамках этой темы - исследование conditional generative models, постобработка синтетических изображений для повышения визуального качества, модели для встраивания данных в изображение, эксперименты с прямым линейным преобразованием в пространстве признаков. Виды объектов - дорожные знаки, автомобили, люди.

Распознавание объектов дорожной сцены для дополненной реальности (Road scene parsing for augmented reality)

Нейросетевые детекторы объектов (CNN-based object detectors)

В рамкамх

Нейросетевой детектор объектов для редких объектов (CNN-based object detector for rare classes)

Нейросетевой детектор голов и фигур людей для систем видеонаблюдения (CNN-based head and person detector for video surveillance)

Ускорение нейросетевых детекторов (Speeding up of CNN-based detectors)

Нейросетевые детекторы лиц людей на изображении работают сейчас очень хорошо, пусть и не идеально. Основное препятствие на пути использования этих методов в устройствах это их вычислительная сложность. Детектор лица работает порядка 200ms на изображение 1980*1080 на видеокарте Nvidia GTX 1070. Однако был предложен целый ряд методов, которые позволяют увеличить производительность нейросетевой модели. Предлагается исследовать применимость этих методов для ускорения детектора лиц.

Генеративная нейросетевая модель изображения человека (Generative neural model for person images)

Локализация головы, лица и точек на лице человека нейросетевой модель ( Head, face and facial features localization with cnn-based model)

Детектор человека позволяет выделить человека на изображении. Однако для последующего анализа полезно определить, где находится (или где должна находиться) голова человека. Видно ли лицо человека? Если да, то где на лице контрольные точки (глаза, нос, рот, уши) и куда смотрит человек? Необходимо разработать модель, получающую на вход изображение фигуры человека, и определяющую указыванные параметры.

Повторная идентификация и классификация атрибутов человека по изображению фигуры (Person reidentification and classification)

Необходимо реализовать нейросетевую модель отображения изображения фигуры человека в вектор-признак, кодирующий внешность человека. Сравнение изображений людей по таким признакам позволяет определить повторное появление человека в видеопотоке. Также такие атрибуты человека, как пол, возраст, комплекция, можно определить, глядя на фотографию фигуры. Если известна "поза" человека, т.е. положение всех конечностей человека в кадре, то задача решается проще. Предлагается реализовать нейросетевую модель, на вход получающую изображение человека с размеченными частями тела, и определяющую атрибуты человека.

Материалы

  • Caffe - deep learning framework - наиболее активно используемая моими студентами библиотека нейросетей
  • A Primer on Neural Network Models for Natural Language Processing хорошее введение в нейросети на примере анализа текстов
  • Neural Networks and Deep Learning - неплохая небольшая книга по глуибнному обучению, с которой можно начинать изучение.
  • Deep Learning book - черновая версия книги Yoshua Bengio, Ian Goodfellow and Aaron Courville про глубинное обучение. Большая и подробная. Можно читать в фоновом режиме, медленно и вдумчиво.
  • robertsdionne/neural-network-papers - Хорошая коллекция статей про нейросети. Часть мы уже разбирали на семинарах на ВМК, часть будем разбирать, часть посмотрим на семинарах в ВШЭ.
  • Colah blog - блог с хорошим описанием ряда вопросов по нейросетям, например, про backpropagation.
  • Nuit Blance blog - блог с описанием разных моментов по машинному обучению. Можно следить.
  • Курс Стенфорда по нейросетям - Много интересных материалов по нейросетям
  • [1] - Хороший тьюториал Стенфорда
  • Facebook Moscow Computer Vision Group - страница семинара по компьютерному зрению в ШАД с дайджестами интересных ссылок