МОВС Обучение с подкреплением (RL) 2023-24 7 модуль

Материал из Wiki - Факультет компьютерных наук
Перейти к: навигация, поиск

О курсе

Занятия проводятся в Zoom по субботам в 14:30.

Контакты

Чат курса в TG: link

Преподаватель: Лактионов Сергей Дмитриевич

Ассистент Контакты
Кирилл Козлов @dedpe
Илья Никитин @is_nikitin
Марк Блуменау @markblumenau
Алиса @alisaxsh
Разин Арслан @CrazyBadRedCat
Георгий Золотов @Zolotov_Georgy

Материалы курса

Ссылка на плейлист курса на YouTube: [YouTube-playlist]

Записи лекций и семинаров предпредыдущего потока: [Яндекс.Диск]

Ссылка на GitHub с материалами курса: [GitHub repository]

Занятие Тема Дата
1 [Запись] [Ноутбук] Introduction to RL, Bellman equations, Dynamic Programming 20/01/24
2 [Запись] [Ноутбук] Model-free RL, tabular case 27/01/24
3 [Запись] [Ноутбук] Intro to deep RL: from DQN to RAINBOW and beyond 03/02/24
4 [Запись] [Ноутбук1 Ноутбук2] Policy Gradients Methods, Actor-Critic 10/02/24
5 [Запись] [Ноутбук] Advanced Actor-Critic Algorithms: TRPO, PPO 17/02/24
6 [Запись] [Ноутбук] Continuous Control: DDPG, TD3, SAC 24/02/24
7 [Запись] [Ноутбук] Offline RL 02/03/24
8 [Запись] [Ноутбук] Multi-armed Bandits 09/03/24
9 [Запись] [Ноутбук] Model-based RL 16/03/24
10 [Запись] Reinforcement Learning from Human Feedback 23/03/24

Формула оценивания

Оценка = МИН(10, 10*(0.6*HW/14 + 0.3*RC/5 + 0.1*TA/9)), где HW - сумма баллов за 4 ДЗ (1 простое и 3 сложных), RC - оценка за презентацию статьи, TA - сумма баллов за еженедельные квизы.

Домашние задания

  1. HW-1 "Value- and policy-iteration algorithms" (2 балла) | Мягкий дедлайн - 28/01/24, Жёсткий - 04/02/24 | [Ноутбук]
  2. HW-2 "DQN Implementation" (4 балла) | Мягкий дедлайн - 18/02/24, Жёсткий - 25/02/24 | [Ноутбук]
  3. HW-3 "PPO Implementation" (4 балла) | Мягкий дедлайн - 03/03/24, Жёсткий - 10/03/24 | [Ноутбук]
  4. HW-4 "SAC Implementation" (4 балла) | Мягкий дедлайн - 17/03/24, Жёсткий - 24/03/24 | [Ноутбук]

Литература

  1. Reinforcement Learning: An Introduction by R.Sutton and A.Barto
  2. Practical RL course by YSDA
  3. David Silver's course
  4. Sergey Levine's course
  5. Reinforcement Learning Textbook (in Russian)