Обучение с подкреплением для манипулятора (проект) — различия между версиями

Текущая версия на 11:12, 17 октября 2018


Ментор	Панов Александр
Учебный семестр	Осень 2018
Учебный курс	2-й курс
Проект можно развивать на летней практике
Максимальное количество студентов, выбравших проект: 5
Содержание 1 Что это за проект? 2 Чему вы научитесь? 3 Какие начальные требования? 4 Какие будут использоваться технологии? 5 Темы вводных занятий 6 Направления развития 7 Критерии оценки 8 Ориентировочное расписание занятий

Что это за проект?

Создавая и проектируя робототехнические системы, мы должны заложить в них некоторые знания, на основе которых они будет успешно решать задачи и адекватно себя вести во внешней среде. Сейчас такие знания в виде правил и готовых алгоритмов по большей части закладываются вручную. Однако, очевидно, что это во-первых, неэффективно, а во-вторых, порождает множество неточностей, потому что заранее все предусмотреть невозможно. Единственный выход из такой ситуации - разработать алгоритм обучения, который бы позволял в процессе деятельности пополнять информацию о доступных и успешных для данной задачи действиях, конструировать новые действия на основе базовых операций и т.д. В данном проекте предлагается поработать над одним из таких алгоритмов в задаче управления манипулятором робота.

Чему вы научитесь?

Вы научитесь работать и реализовывать современные алгоритмы обучения с подкреплением. Вы узнаете, в чем специфика работы с робототехническими системами. Вы научитесь применять методы машинного обучения в таких задачах, как планирование и управление. Познакомитесь с возможностью применения нейронных сетей в обучении с подкреплением.

Какие начальные требования?

Отличное знание Python и желание учиться новому.

Какие будут использоваться технологии?

Инструменты и библиотеки Python (OpenAI.Gym, Open.AI Universe и др.).

Темы вводных занятий

Базовое занятие по обучению с подкреплением и задаче управления манипулятором.

Направления развития

Основное развитие - имплементация разработанного алгоритма для модели робототехнической системы в системах ROS и Gazebo.

Критерии оценки

1. 4-5 - Реализация базовой среды (Env) в Open.AI и примитивного алгоритма управления через Q-tables. 2. 6-7 - Реализация различных версий алгоритмов TRPO и PPO, проведение и анализ экспериментов. 3. 8-10 - Либо применение реккуретной нейронной сети с памятью, либо реализация алгоритма для модели робота в ROS и Gazebo.

Ориентировочное расписание занятий

ПН 17:00-19:00 и СП 17:00-19:00

@@ Строка 3: / Строка 3: @@
 |mentor=Панов Александр
 |mentor_login={{URLENCODE:Panov.ai|WIKI}}
-|semester=Осень 2017
+|semester=Осень 2018
 |course=2
 |summer=on

Обучение с подкреплением для манипулятора (проект) — различия между версиями

Текущая версия на 11:12, 17 октября 2018

Содержание

Что это за проект?

Чему вы научитесь?

Какие начальные требования?

Какие будут использоваться технологии?

Темы вводных занятий

Направления развития

Критерии оценки

Ориентировочное расписание занятий

Навигация

Персональные инструменты

Пространства имён

Варианты

Просмотры

Действия

Поиск

Навигация

Инструменты