Обучение с подкреплением 24/25 (МОВС23) — различия между версиями
Материал из Wiki - Факультет компьютерных наук
| Строка 70: | Строка 70: | ||
# HW-1 "Value- and policy-iteration algorithms" (''2 балла'') | '''Мягкий дедлайн - 26/01/25''', Жёсткий - 02/02/25 | [[https://github.com/laktionov/RL-course/blob/2025/hw1/hw-1-value-policy-iteration.ipynb Ноутбук]] | # HW-1 "Value- and policy-iteration algorithms" (''2 балла'') | '''Мягкий дедлайн - 26/01/25''', Жёсткий - 02/02/25 | [[https://github.com/laktionov/RL-course/blob/2025/hw1/hw-1-value-policy-iteration.ipynb Ноутбук]] | ||
| − | |||
# HW-2 "Tabular RL" (''2 балла'') | '''Мягкий дедлайн - 09/02/25''', Жёсткий - 16/02/25 | [[https://github.com/laktionov/RL-course/blob/2025/hw2/advanced_tabular_rl.ipynb Ноутбук]] | # HW-2 "Tabular RL" (''2 балла'') | '''Мягкий дедлайн - 09/02/25''', Жёсткий - 16/02/25 | [[https://github.com/laktionov/RL-course/blob/2025/hw2/advanced_tabular_rl.ipynb Ноутбук]] | ||
| − | |||
| − | |||
# HW-3 "Duelling DDQN" (''6 баллов'') | '''Мягкий дедлайн - 02/03/25''', Жёсткий - 09/03/25 | [[https://github.com/laktionov/RL-course/blob/2025/hw3/dueling_ddqn.ipynb Ноутбук]] | # HW-3 "Duelling DDQN" (''6 баллов'') | '''Мягкий дедлайн - 02/03/25''', Жёсткий - 09/03/25 | [[https://github.com/laktionov/RL-course/blob/2025/hw3/dueling_ddqn.ipynb Ноутбук]] | ||
| − | |||
# HW-4 "PPO" (''5 баллов'') | '''Мягкий дедлайн - 09/03/25''', Жёсткий - 16/03/25 | [[ Ноутбук]] | # HW-4 "PPO" (''5 баллов'') | '''Мягкий дедлайн - 09/03/25''', Жёсткий - 16/03/25 | [[ Ноутбук]] | ||
| − | |||
| − | |||
# HW-5 "SAC" (''5 баллов'') | '''Мягкий дедлайн - 23/03/25''', Жёсткий - 30/03/25 | [[ Ноутбук]] | # HW-5 "SAC" (''5 баллов'') | '''Мягкий дедлайн - 23/03/25''', Жёсткий - 30/03/25 | [[ Ноутбук]] | ||
Версия 04:40, 17 февраля 2025
Содержание
О курсе
Занятия проводятся в Zoom по субботам в 14:30.
Контакты
Чат курса в TG: link
Преподаватель: Лактионов Сергей Дмитриевич
| Ассистент | Контакты |
|---|---|
| Оленина Александра | @alex_deer |
| Сивых Егор | @EgorSivykh |
| Прошин Александр | @Alex_Pro_7 |
| Максутова Айза | @aiziks |
| Разин Арслан | @CrazyBadRedCat |
| Демиденко Никита | @kalxon |
| Никита | @Nn_holt |
Материалы курса
Ссылка на плейлист курса на YouTube: YouTube-playlist
Записи лекций и семинаров предыдущего потока: [YouTube-playlist]
Ссылка на GitHub с материалами курса: [GitHub repository]
| Занятие | Тема | Дата | |
|---|---|---|---|
| 1 Запись | [Ноутбук] Introduction to RL, Bellman equations, Dynamic Programming | 18/01/25 | |
| 2 Запись | Ноутбук Model-free RL, tabular case | 25/01/25 | |
| 3 Запись | Ноутбук Intro to deep RL: from DQN to RAINBOW and beyond | 01/02/25 | |
| 4 Запись | Ноутбук Policy Gradients Methods, Actor-Critic | 08/02/25 | |
| 5 Запись | Ноутбук Advanced Actor-Critic Algorithms: TRPO, PPO | 15/02/25 | |
| 6 Запись | Ноутбук Continuous Control: DDPG, TD3, SAC | 22/02/25 | |
| 7 Запись | Ноутбук Offline RL | 01/03/25 | |
| 8 Запись | Ноутбук Multi-armed Bandits | 08/03/25 | |
| 9 Запись | Ноутбук Model-based RL | 15/03/25 | |
| 10 Запись | RL in a context of LLM | 22/03/25 |
Формула оценивания
Оценка = МИН(10, 10*(0.65*HW/20 + 0.25*RC/5 + 0.1*TA/9)), где HW - сумма баллов за 5 ДЗ (2 простое и 3 сложных), RC - оценка за презентацию статьи, TA - сумма баллов за еженедельные квизы.
Домашние задания
- HW-1 "Value- and policy-iteration algorithms" (2 балла) | Мягкий дедлайн - 26/01/25, Жёсткий - 02/02/25 | [Ноутбук]
- HW-2 "Tabular RL" (2 балла) | Мягкий дедлайн - 09/02/25, Жёсткий - 16/02/25 | [Ноутбук]
- HW-3 "Duelling DDQN" (6 баллов) | Мягкий дедлайн - 02/03/25, Жёсткий - 09/03/25 | [Ноутбук]
- HW-4 "PPO" (5 баллов) | Мягкий дедлайн - 09/03/25, Жёсткий - 16/03/25 | Ноутбук
- HW-5 "SAC" (5 баллов) | Мягкий дедлайн - 23/03/25, Жёсткий - 30/03/25 | Ноутбук