Learning communicative and cooperative strategies in multi-agent decision processes (проект)
Ментор | Ратников Федор Дмитриевич |
Учебный семестр | Осень 2017 |
Учебный курс | 2-й курс |
Максимальное количество студентов, выбравших проект: 1 | |
Что это за проект?
Классическая постановка задачи для обучения с подкреплением предполагает наличие одного агента, взаимодействующего со средой. Если в среде присутствует несколько агентов, наивный подход к решению задачи предполагает учесть их как часть среды (с нестационарным P(s’
Чему вы научитесь?
Вы научитесь работать и реализовывать современные алгоритмы обучения с подкреплением, а также узнаете их специфику в контексте множества агентов. Модификации алгоритмов обучения с подкреплением в специфике RL также можно будет опубликовать на arxiv или тематические конференции.
Какие начальные требования?
Python, Theano/Tensorflow, reinforcement learning 101
Какие будут использоваться технологии?
Python, Theano/Tensorflow/Pytorch, OpenAI Gym
Темы вводных занятий
1. Introduction to Reinforcement Learning
2. Value-based methods
3. Approximate reinforcement learning
4. Policy Gradient Methods
Направления развития
TBA
Критерии оценки
4-6 Реализация среды для экспериментов
7-8 Построение базового решения задачи на базе actor-critic, expected-value sarsa или схожих методов.
9-10 Исследовательская работа по улучшению динамики обучения в таких играх (e.g. unrolled policy gradient, по выбору студента)
Ориентировочное расписание занятий
TBA