Learning communicative and cooperative strategies in multi-agent decision processes (проект)
Ментор | Ратников Федор Дмитриевич |
Учебный семестр | Осень 2017 |
Учебный курс | 2-й курс |
Максимальное количество студентов, выбравших проект: 1 | |
Что это за проект?
Классическая постановка задачи для обучения с подкреплением предполагает наличие одного агента, взаимодействующего со средой. Если в среде присутствует несколько агентов, наивный подход к решению задачи предполагает учесть их как часть среды (с нестационарным P(s’|s,a)). Существуют и более успешные формализации, напрямую основанные на знании о присутствии в среде нескольких агентов (https://arxiv.org/abs/1707.04402 , https://arxiv.org/pdf/1603.01121.pdf , goo.gl/srCohK ). В данном проекте предлагается адаптировать классические методы RL для задачи с большим количеством кооперативных агентов с возможностью коммуникации. Сама задача - формализация goo.gl/iDXC8J . В проекте предлагается реализовать обучение агентов таким образом, чтобы они смогли “договариваться” между собой, достигая максимального выигрыша путем коллаборации.
Чему вы научитесь?
Вы научитесь работать и реализовывать современные алгоритмы обучения с подкреплением, а также узнаете их специфику в контексте множества агентов. Модификации алгоритмов обучения с подкреплением в специфике RL также можно будет опубликовать на arxiv или тематические конференции.
Какие начальные требования?
Python, Theano/Tensorflow, reinforcement learning 101
Какие будут использоваться технологии?
Python, Theano/Tensorflow/Pytorch, OpenAI Gym
Темы вводных занятий
1. Introduction to Reinforcement Learning
2. Value-based methods
3. Approximate reinforcement learning
4. Policy Gradient Methods
Направления развития
TBA
Критерии оценки
4-6 Реализация среды для экспериментов
7-8 Построение базового решения задачи на базе actor-critic, expected-value sarsa или схожих методов.
9-10 Исследовательская работа по улучшению динамики обучения в таких играх (e.g. unrolled policy gradient, по выбору студента)
Ориентировочное расписание занятий
TBA