Участник:Akonushin

Материал из Wiki - Факультет компьютерных наук
Перейти к: навигация, поиск

Обо мне

Меня зовут Конушин Антон. Я доцент департамент больших данных и информационного поиска ФКН НИУ ВШЭ и академический руководитель ОП "Прикладная математика и информатика". Также я руковожу лабораторией компьютерной графики и мультимедиа ВМК МГУ (http://graphics.cs.msu.ru/ru) и читаю лекции в Школе Анализа Данных Яндекса. Мои основные научные интересы - это компьютерное зрение, машинное обучение и компьютерная графика.

Научные интересы

Основное приложение методов компьютерного зрения, которое мне сейчас интересно, это "разбор видео", т.е. извлечение всей возможной информации из видеоданных. Главный рассматриваемый сейчас сценарий - это работа с данными видеонаблюдения. На выходе нужно получить всю возможную информацию - выделение всех людей, отслеживание их движения, определение их характеристик (пол, возраст), идентификация людей по лицу / походке / комплекции / одежде, вплоть до построения трёхмерной модели сцены в динамике.

Главный инструмент компьютерного зрения сейчас - это нейросетевые модели. Нейросети позволяют автоматических вычислять признаки из данных, и их обрабатывать. При этом решение многих задач можно строить в виде одной сложной нейросетевой модели. В этой области идёт бурный прогресс.

Структура предлагаемых КР и ВКР

Все темы КР и ВКР, которые я предлагаю в этом учебном году, связаны с построением, усовершенствованием и применением нейросетевых моделей для задач компьютерного зрения, в первую очередь для анализ видео с людьми. Поэтому общая схема выполнения всех КР и ВКР будет примерно следующая:

1) (Рекомендовано) Знакомство с нейросетями. Для этого нужно выполнить 2-3 небольших практических упражнений по нейросетям, на базе одного из фреймворков (Keras). Это позволит освоить ряд основных принципов работы с нейросетями для изображений (размножение данных, задание правильных функций потерь при обучении, использование предобученных моделей и дообучение и т.д.) 2)Изучение набора базовых статей по теме (ключевые статьи в целом по нейросетям в зрении, набор конкретных по рассматриваемым моделям) 3) Выбор конкретной модели и её реализации как базового алгоритма. Для многих задач есть готовые реализации. В этом случае нужно освоить реализацию - т.е. научиться обучать модель на своих данных, измерять качество, анализировать такую работу. В некоторых случаях конкретную модель предлагаю я, в других случаях её нужно будет выбрать самостоятельно по результатам проведённого обзора (п.2). Если модели в открытых источниках нет, тогда нужно будет выполнить самостоятельную реализацию этой модели. В зависимости от выбранной модели может потребоваться дополнительно изучить другой фреймворк нейросетей (Caffe, TensorFlow, Torch). 4) Собственно исследовательская часть, которая включает в себя проверку некоторой гипотезы о развитии этой модели, доработку модели, сбор данных и т.д. 5) Текст КР. Если есть интересный, пусть небольшой, научный результат, тогда нужно будет написать по тексту диплома статью и подавать её.

В ходе выполнения курсовой работы на практике можно освоить работу с нейросетевыми моделями, изучать 1-2 фреймворка, научиться применять модели для решения конкретных задач анализа изображений. В зависимости от успехов можно будет успеть провести небольшое законченное исследование.

Темы на 2017-2018 учебный год

Генеративные нейросетевые модели для синтеза обучающих данных (Generative cnn-based models for training data syntethis)

Нейросетевые модели для синтеза и обработки изображений бурно прогрессируют в последние пару лет. Одно из направлений их использования - подготовка обучающих данных для других алгоритмов компьютерного зрения, например обучения и классификации детекторов и распознавателей объектов. Предварительные эксперименты показывают, что качество генерируемых данных достаточно для обучения на уровне обучения по реальным данным. Есть разные направления работы в рамках этой темы - исследование conditional generative models, постобработка синтетических изображений для повышения визуального качества, модели для встраивания данных в изображение, эксперименты с прямым линейным преобразованием в пространстве признаков. Виды объектов - дорожные знаки, автомобили, люди.

Генеративная нейросетевая модель изображения человека (Generative neural model for images of the person)

Распознавание объектов дорожной сцены для дополненной реальности (Road scene parsing for augmented reality)

Нейросетевые детекторы объектов (CNN-based object detectors)

В рамках данной темы возможны различные направления исследований развития детектора объектов:

  • поиск редких объектов
  • нейросетевой детектор голов и фигур людей для систем видеонаблюдения
  • ускорение нейросетевых детекторов

Нейросетевые детекторы лиц людей на изображении работают сейчас очень хорошо, пусть и не идеально. Основное препятствие на пути использования этих методов в устройствах это их вычислительная сложность. Детектор лица работает порядка 200ms на изображение 1980*1080 на видеокарте Nvidia GTX 1070. Однако был предложен целый ряд методов, которые позволяют увеличить производительность нейросетевой модели. Предлагается исследовать применимость этих методов для ускорения детектора лиц.

Повторная идентификация и классификация атрибутов человека по изображению фигуры (Person reidentification and classification)

Необходимо реализовать нейросетевую модель отображения изображения фигуры человека в вектор-признак, кодирующий внешность человека. Сравнение изображений людей по таким признакам позволяет определить повторное появление человека в видеопотоке. Также такие атрибуты человека, как пол, возраст, комплекция, можно определить, глядя на фотографию фигуры. Если известна "поза" человека, т.е. положение всех конечностей человека в кадре, то задача решается проще. Предлагается реализовать нейросетевую модель, на вход получающую изображение человека с размеченными частями тела, и определяющую атрибуты человека.

Материалы

  • Caffe - deep learning framework - наиболее активно используемая моими студентами библиотека нейросетей
  • A Primer on Neural Network Models for Natural Language Processing хорошее введение в нейросети на примере анализа текстов
  • Neural Networks and Deep Learning - неплохая небольшая книга по глуибнному обучению, с которой можно начинать изучение.
  • Deep Learning book - черновая версия книги Yoshua Bengio, Ian Goodfellow and Aaron Courville про глубинное обучение. Большая и подробная. Можно читать в фоновом режиме, медленно и вдумчиво.
  • robertsdionne/neural-network-papers - Хорошая коллекция статей про нейросети. Часть мы уже разбирали на семинарах на ВМК, часть будем разбирать, часть посмотрим на семинарах в ВШЭ.
  • Colah blog - блог с хорошим описанием ряда вопросов по нейросетям, например, про backpropagation.
  • Nuit Blance blog - блог с описанием разных моментов по машинному обучению. Можно следить.
  • Курс Стенфорда по нейросетям - Много интересных материалов по нейросетям
  • [1] - Хороший тьюториал Стенфорда
  • Facebook Moscow Computer Vision Group - страница семинара по компьютерному зрению в ШАД с дайджестами интересных ссылок