Обучение с подкреплением 24/25 (МОВС23) — различия между версиями

Материал из Wiki - Факультет компьютерных наук
Перейти к: навигация, поиск
 
Строка 44: Строка 44:
 
| style="background:#eaecf0;" | '''1''' [[Запись]] || [[https://github.com/laktionov/RL-course/blob/2025/week1_intro_dynamic_programming/solve_rl_tasks_without_rl.ipynb Ноутбук]] Introduction to RL, Bellman equations, Dynamic Programming ||  18/01/25 ||
 
| style="background:#eaecf0;" | '''1''' [[Запись]] || [[https://github.com/laktionov/RL-course/blob/2025/week1_intro_dynamic_programming/solve_rl_tasks_without_rl.ipynb Ноутбук]] Introduction to RL, Bellman equations, Dynamic Programming ||  18/01/25 ||
 
|-
 
|-
| style="background:#eaecf0;" | '''2''' [[Запись]] || [[Ноутбук]] Model-free RL, tabular case || 25/01/25 ||
+
| style="background:#eaecf0;" | '''2''' [[Запись]] || [[https://github.com/laktionov/RL-course/blob/2025/week2_model_free_rl/tabular_rl.ipynb Ноутбук]] Model-free RL, tabular case || 25/01/25 ||
 
|-
 
|-
| style="background:#eaecf0;" | '''3''' [[Запись]] || [[Ноутбук]] Intro to deep RL: from DQN to RAINBOW and beyond || 01/02/25 ||
+
| style="background:#eaecf0;" | '''3''' [[Запись]] || [[https://github.com/laktionov/RL-course/blob/2025/week3_dqn/dqn_for_cartpole.ipynb Ноутбук]] Intro to deep RL: from DQN to RAINBOW and beyond || 01/02/25 ||
 
|-
 
|-
| style="background:#eaecf0;" | '''4''' [[Запись]] || [[Ноутбук]] Policy Gradients Methods, Actor-Critic || 08/02/25 ||
+
| style="background:#eaecf0;" | '''4''' [[Запись]] || [[https://github.com/laktionov/RL-course/blob/2025/week4_policy_based/reinforce.ipynb Ноутбук1] [https://github.com/laktionov/RL-course/blob/2025/week4_policy_based/a2c.ipynb Ноутбук2]] Policy Gradients Methods, Actor-Critic || 08/02/25 ||
 
|-
 
|-
| style="background:#eaecf0;" | '''5''' [[Запись]] || [[Ноутбук]] Advanced Actor-Critic Algorithms: TRPO, PPO || 15/02/25 ||
+
| style="background:#eaecf0;" | '''5''' [[Запись]] || [[https://github.com/laktionov/RL-course/blob/2025/week5_advanced_policy_based/trpo.ipynb Ноутбук]] Advanced Actor-Critic Algorithms: TRPO, PPO || 15/02/25 ||
 
|-
 
|-
 
| style="background:#eaecf0;" | '''6''' [[Запись]]|| [[Ноутбук]] Continuous Control: DDPG, TD3, SAC || 22/02/25 ||
 
| style="background:#eaecf0;" | '''6''' [[Запись]]|| [[Ноутбук]] Continuous Control: DDPG, TD3, SAC || 22/02/25 ||

Текущая версия на 05:21, 17 февраля 2025

О курсе

Занятия проводятся в Zoom по субботам в 14:30.

Контакты

Чат курса в TG: link

Преподаватель: Лактионов Сергей Дмитриевич

Ассистент Контакты
Оленина Александра @alex_deer
Сивых Егор @EgorSivykh
Прошин Александр @Alex_Pro_7
Максутова Айза @aiziks
Разин Арслан @CrazyBadRedCat
Демиденко Никита @kalxon
Никита @Nn_holt

Материалы курса

Ссылка на плейлист курса на YouTube: YouTube-playlist

Записи лекций и семинаров предыдущего потока: [YouTube-playlist]

Ссылка на GitHub с материалами курса: [GitHub repository]

Занятие Тема Дата
1 Запись [Ноутбук] Introduction to RL, Bellman equations, Dynamic Programming 18/01/25
2 Запись [Ноутбук] Model-free RL, tabular case 25/01/25
3 Запись [Ноутбук] Intro to deep RL: from DQN to RAINBOW and beyond 01/02/25
4 Запись [Ноутбук1 Ноутбук2] Policy Gradients Methods, Actor-Critic 08/02/25
5 Запись [Ноутбук] Advanced Actor-Critic Algorithms: TRPO, PPO 15/02/25
6 Запись Ноутбук Continuous Control: DDPG, TD3, SAC 22/02/25
7 Запись Ноутбук Offline RL 01/03/25
8 Запись Ноутбук Multi-armed Bandits 08/03/25
9 Запись Ноутбук Model-based RL 15/03/25
10 Запись RL in a context of LLM 22/03/25

Формула оценивания

Оценка = МИН(10, 10*(0.65*HW/20 + 0.25*RC/5 + 0.1*TA/9)), где HW - сумма баллов за 5 ДЗ (2 простое и 3 сложных), RC - оценка за презентацию статьи, TA - сумма баллов за еженедельные квизы.

Домашние задания

  1. HW-1 "Value- and policy-iteration algorithms" (2 балла) | Мягкий дедлайн - 26/01/25, Жёсткий - 02/02/25 | [Ноутбук]
  2. HW-2 "Tabular RL" (2 балла) | Мягкий дедлайн - 09/02/25, Жёсткий - 16/02/25 | [Ноутбук]
  3. HW-3 "Duelling DDQN" (6 баллов) | Мягкий дедлайн - 02/03/25, Жёсткий - 09/03/25 | [Ноутбук]
  4. HW-4 "PPO" (5 баллов) | Мягкий дедлайн - 09/03/25, Жёсткий - 16/03/25 | Ноутбук
  5. HW-5 "SAC" (5 баллов) | Мягкий дедлайн - 23/03/25, Жёсткий - 30/03/25 | Ноутбук



Литература

  1. Reinforcement Learning: An Introduction by R.Sutton and A.Barto
  2. Practical RL course by YSDA
  3. David Silver's course
  4. Sergey Levine's course
  5. Reinforcement Learning Textbook (in Russian)