Learning communicative and cooperative strategies in multi-agent decision processes (проект)

Материал из Wiki - Факультет компьютерных наук
Версия от 13:49, 20 октября 2017; GalinaKaleeva (обсуждение | вклад)

(разн.) ← Предыдущая | Текущая версия (разн.) | Следующая → (разн.)
Перейти к: навигация, поиск
Ментор Ратников Федор Дмитриевич
Учебный семестр Осень 2017
Учебный курс 2-й курс
Максимальное количество студентов, выбравших проект: 1



Что это за проект?

Классическая постановка задачи для обучения с подкреплением предполагает наличие одного агента, взаимодействующего со средой. Если в среде присутствует несколько агентов, наивный подход к решению задачи предполагает учесть их как часть среды (с нестационарным P(s’

Чему вы научитесь?

Вы научитесь работать и реализовывать современные алгоритмы обучения с подкреплением, а также узнаете их специфику в контексте множества агентов. Модификации алгоритмов обучения с подкреплением в специфике RL также можно будет опубликовать на arxiv или тематические конференции.

Какие начальные требования?

Python, Theano/Tensorflow, reinforcement learning 101

Какие будут использоваться технологии?

Python, Theano/Tensorflow/Pytorch, OpenAI Gym

Темы вводных занятий

1. Introduction to Reinforcement Learning

2. Value-based methods

3. Approximate reinforcement learning

4. Policy Gradient Methods

Направления развития

TBA

Критерии оценки

4-6 Реализация среды для экспериментов

7-8 Построение базового решения задачи на базе actor-critic, expected-value sarsa или схожих методов.

9-10 Исследовательская работа по улучшению динамики обучения в таких играх (e.g. unrolled policy gradient, по выбору студента)

Ориентировочное расписание занятий

TBA