Learning communicative and cooperative strategies in multi-agent decision processes (проект)


Ментор	Ратников Федор Дмитриевич
Учебный семестр	Осень 2017
Учебный курс	2-й курс

Максимальное количество студентов, выбравших проект: 1
Содержание 1 Что это за проект? 2 Чему вы научитесь? 3 Какие начальные требования? 4 Какие будут использоваться технологии? 5 Темы вводных занятий 6 Направления развития 7 Критерии оценки 8 Ориентировочное расписание занятий

Что это за проект?

Классическая постановка задачи для обучения с подкреплением предполагает наличие одного агента, взаимодействующего со средой. Если в среде присутствует несколько агентов, наивный подход к решению задачи предполагает учесть их как часть среды (с нестационарным P(s’|s,a)). Существуют и более успешные формализации, напрямую основанные на знании о присутствии в среде нескольких агентов (https://arxiv.org/abs/1707.04402 , https://arxiv.org/pdf/1603.01121.pdf , goo.gl/srCohK ). В данном проекте предлагается адаптировать классические методы RL для задачи с большим количеством кооперативных агентов с возможностью коммуникации. Сама задача - формализация goo.gl/iDXC8J . В проекте предлагается реализовать обучение агентов таким образом, чтобы они смогли “договариваться” между собой, достигая максимального выигрыша путем коллаборации.

Чему вы научитесь?

Вы научитесь работать и реализовывать современные алгоритмы обучения с подкреплением, а также узнаете их специфику в контексте множества агентов. Модификации алгоритмов обучения с подкреплением в специфике RL также можно будет опубликовать на arxiv или тематические конференции.

Какие начальные требования?

Python, Theano/Tensorflow, reinforcement learning 101

Какие будут использоваться технологии?

Python, Theano/Tensorflow/Pytorch, OpenAI Gym

Темы вводных занятий

1. Introduction to Reinforcement Learning

2. Value-based methods

3. Approximate reinforcement learning

4. Policy Gradient Methods

Направления развития

TBA

Критерии оценки

4-6 Реализация среды для экспериментов

7-8 Построение базового решения задачи на базе actor-critic, expected-value sarsa или схожих методов.

9-10 Исследовательская работа по улучшению динамики обучения в таких играх (e.g. unrolled policy gradient, по выбору студента)

Ориентировочное расписание занятий

TBA

Learning communicative and cooperative strategies in multi-agent decision processes (проект)

Содержание

Что это за проект?

Чему вы научитесь?

Какие начальные требования?

Какие будут использоваться технологии?

Темы вводных занятий

Направления развития

Критерии оценки

Ориентировочное расписание занятий

Навигация

Персональные инструменты

Пространства имён

Варианты

Просмотры

Действия

Поиск

Навигация

Инструменты