Learning communicative and cooperative strategies in multi-agent decision processes (проект)

Материал из Wiki - Факультет компьютерных наук
Версия от 14:14, 20 октября 2017; GalinaKaleeva (обсуждение | вклад)

(разн.) ← Предыдущая | Текущая версия (разн.) | Следующая → (разн.)
Перейти к: навигация, поиск
Ментор Ратников Федор Дмитриевич
Учебный семестр Осень 2017
Учебный курс 2-й курс
Максимальное количество студентов, выбравших проект: 1



Что это за проект?

Классическая постановка задачи для обучения с подкреплением предполагает наличие одного агента, взаимодействующего со средой. Если в среде присутствует несколько агентов, наивный подход к решению задачи предполагает учесть их как часть среды (с нестационарным P(s’|s,a)). Существуют и более успешные формализации, напрямую основанные на знании о присутствии в среде нескольких агентов (https://arxiv.org/abs/1707.04402 , https://arxiv.org/pdf/1603.01121.pdf , goo.gl/srCohK ). В данном проекте предлагается адаптировать классические методы RL для задачи с большим количеством кооперативных агентов с возможностью коммуникации. Сама задача - формализация goo.gl/iDXC8J . В проекте предлагается реализовать обучение агентов таким образом, чтобы они смогли “договариваться” между собой, достигая максимального выигрыша путем коллаборации.


Чему вы научитесь?

Вы научитесь работать и реализовывать современные алгоритмы обучения с подкреплением, а также узнаете их специфику в контексте множества агентов. Модификации алгоритмов обучения с подкреплением в специфике RL также можно будет опубликовать на arxiv или тематические конференции.

Какие начальные требования?

Python, Theano/Tensorflow, reinforcement learning 101

Какие будут использоваться технологии?

Python, Theano/Tensorflow/Pytorch, OpenAI Gym

Темы вводных занятий

1. Introduction to Reinforcement Learning

2. Value-based methods

3. Approximate reinforcement learning

4. Policy Gradient Methods

Направления развития

TBA

Критерии оценки

4-6 Реализация среды для экспериментов

7-8 Построение базового решения задачи на базе actor-critic, expected-value sarsa или схожих методов.

9-10 Исследовательская работа по улучшению динамики обучения в таких играх (e.g. unrolled policy gradient, по выбору студента)

Ориентировочное расписание занятий

TBA