МОВС Обучение с подкреплением (RL) 2023-24 7 модуль — различия между версиями
Материал из Wiki - Факультет компьютерных наук
(→Контакты) |
|||
Строка 28: | Строка 28: | ||
==Материалы курса== | ==Материалы курса== | ||
− | Ссылка на плейлист курса на YouTube: [[https:// | + | Ссылка на плейлист курса на YouTube: [[https://youtube.com/playlist?list=PLmA-1xX7IuzAO3gkubS2I6LuqDNBs1xcP&feature=shared, YouTube-playlist]] |
Записи лекций и семинаров предпредыдущего потока: [[https://disk.yandex.ru/d/xZbe-qARVmWkuw Яндекс.Диск]] | Записи лекций и семинаров предпредыдущего потока: [[https://disk.yandex.ru/d/xZbe-qARVmWkuw Яндекс.Диск]] | ||
Строка 40: | Строка 40: | ||
| style="background:#eaecf0;" | '''1''' [[https://youtu.be/sNrMJw-kylw?si=AKVTgEZ28hGgwgcC, Запись]] || [[https://github.com/laktionov/RL-course/blob/pmi_movs_2024/week1_intro_dynamic_programming/solve_rl_tasks_without_rl.ipynb, Ноутбук]] Introduction to RL, Bellman equations, Dynamic Programming || 20/01/24 || | | style="background:#eaecf0;" | '''1''' [[https://youtu.be/sNrMJw-kylw?si=AKVTgEZ28hGgwgcC, Запись]] || [[https://github.com/laktionov/RL-course/blob/pmi_movs_2024/week1_intro_dynamic_programming/solve_rl_tasks_without_rl.ipynb, Ноутбук]] Introduction to RL, Bellman equations, Dynamic Programming || 20/01/24 || | ||
|- | |- | ||
− | | style="background:#eaecf0;" | '''2''' [[ Запись]] || [[ Ноутбук]] Model-free RL, tabular case || 27/01/24 || | + | | style="background:#eaecf0;" | '''2''' [[ Запись]] || [[https://github.com/laktionov/RL-course/blob/pmi_movs_2024/week2_model_free_rl/tabular_rl.ipynb, Ноутбук]] Model-free RL, tabular case || 27/01/24 || |
|- | |- | ||
| style="background:#eaecf0;" | '''3''' [[ Запись]] || [[ Ноутбук]] Intro to deep RL: from DQN to RAINBOW and beyond || 03/02/24 || | | style="background:#eaecf0;" | '''3''' [[ Запись]] || [[ Ноутбук]] Intro to deep RL: from DQN to RAINBOW and beyond || 03/02/24 || |
Версия 19:07, 27 января 2024
Содержание
О курсе
Занятия проводятся в Zoom по субботам в 14:30.
Контакты
Чат курса в TG: link
Преподаватель: Лактионов Сергей Дмитриевич
Ассистент | Контакты |
---|---|
Кирилл Козлов | @dedpe |
Илья Никитин | @is_nikitin |
Марк Блуменау | @markblumenau |
Алиса | @alisaxsh |
Разин Арслан | @CrazyBadRedCat |
Георгий Золотов | @Zolotov_Georgy |
Материалы курса
Ссылка на плейлист курса на YouTube: [YouTube-playlist]
Записи лекций и семинаров предпредыдущего потока: [Яндекс.Диск]
Ссылка на GitHub с материалами курса: [GitHub repository]
Занятие | Тема | Дата | |
---|---|---|---|
1 [Запись] | [Ноутбук] Introduction to RL, Bellman equations, Dynamic Programming | 20/01/24 | |
2 Запись | [Ноутбук] Model-free RL, tabular case | 27/01/24 | |
3 Запись | Ноутбук Intro to deep RL: from DQN to RAINBOW and beyond | 03/02/24 | |
4 Запись | Ноутбук Policy Gradients Methods, Actor-Critic | 10/02/24 | |
5 Запись | Ноутбук Advanced Actor-Critic Algorithms: TRPO, PPO | 17/02/24 | |
6 Запись | Ноутбук Continuous Control: DDPG, TD3, SAC | 24/02/24 | |
7 Запись | Ноутбук Offline RL | 02/03/24 | |
8 Запись | Ноутбук Multi-armed Bandits | 09/03/24 | |
9 Запись | Ноутбук Model-based RL | 16/03/24 | |
10 Запись | Ноутбук Reinforcement Learning from Human Feedback | 23/03/24 |
Формула оценивания
Оценка = МИН(10, 10*(0.6*HW/14 + 0.3*RC/5 + 0.1*TA/9)), где HW - сумма баллов за 4 ДЗ (1 простое и 3 сложных), RC - оценка за презентацию статьи, TA - сумма баллов за еженедельные квизы.
Домашние задания
- HW-1 "Value- and policy-iteration algorithms" (2 балла) | Мягкий дедлайн - 28/01/24, Жёсткий - 04/02/24 | [Ноутбук]
- HW-2 "DQN Implementation" (4 балла) | Мягкий дедлайн - 18/02/24, Жёсткий - 25/02/24 | Ноутбук
- HW-3 "A2C Implementation" (4 балла) | Мягкий дедлайн - 03/03/24, Жёсткий - 10/03/24 | Ноутбук
- HW-4 "SAC Implementation" (4 балла) | Мягкий дедлайн - 17/03/24, Жёсткий - 24/03/24 | Ноутбук
- Разбор статьи (30% общей оценки) | Список примеров | Таблица для записи | Дедлайн - ...