МОВС Обучение с подкреплением (RL) 2023-24 7 модуль — различия между версиями
Материал из Wiki - Факультет компьютерных наук
(→Материалы курса) |
|||
Строка 30: | Строка 30: | ||
! Занятие !! Тема !! Дата | ! Занятие !! Тема !! Дата | ||
|- | |- | ||
− | | style="background:#eaecf0;" | '''1''' [[ Запись]] || [[ Ноутбук]] | + | | style="background:#eaecf0;" | '''1''' [[ Запись]] || [[ Ноутбук]] Introduction to RL, Bellman equations, Dynamic Programming || 20/01/24 || |
|- | |- | ||
− | | style="background:#eaecf0;" | '''2''' [[ Запись]] || [[ Ноутбук]] | + | | style="background:#eaecf0;" | '''2''' [[ Запись]] || [[ Ноутбук]] Model-free RL, tabular case || 27/01/24 || |
|- | |- | ||
− | | style="background:#eaecf0;" | '''3''' [[ Запись]] || [[ Ноутбук]] | + | | style="background:#eaecf0;" | '''3''' [[ Запись]] || [[ Ноутбук]] Intro to deep RL: from DQN to RAINBOW and beyond || 03/02/24 || |
|- | |- | ||
− | | style="background:#eaecf0;" | '''4''' [[ Запись]] || [[ Ноутбук]] | + | | style="background:#eaecf0;" | '''4''' [[ Запись]] || [[ Ноутбук]] Policy Gradients Methods, Actor-Critic || 10/02/24 || |
|- | |- | ||
− | | style="background:#eaecf0;" | '''5''' [[ Запись]] || [[ Ноутбук]] | + | | style="background:#eaecf0;" | '''5''' [[ Запись]] || [[ Ноутбук]] Advanced Actor-Critic Algorithms: TRPO, PPO || 17/02/24 || |
|- | |- | ||
− | | style="background:#eaecf0;" | '''6''' [[ Запись]]|| [[ Ноутбук]] | + | | style="background:#eaecf0;" | '''6''' [[ Запись]]|| [[ Ноутбук]] Continuous Control: DDPG, TD3, SAC || 24/02/24 || |
|- | |- | ||
− | | style="background:#eaecf0;" | '''7''' [ Запись]] || [[ | + | | style="background:#eaecf0;" | '''7''' [[ Запись]]|| [[ Ноутбук]] Offline RL || 02/03/24 || |
|- | |- | ||
− | | style="background:#eaecf0;" | '''8''' [[ Запись]] || [[ Ноутбук]] Multi-armed Bandits | + | | style="background:#eaecf0;" | '''8''' [[ Запись]] || [[ Ноутбук]] Multi-armed Bandits || 09/03/24 || |
|- | |- | ||
+ | | style="background:#eaecf0;" | '''9''' [[ Запись]] || [[ Ноутбук]] Model-based RL || 16/03/24 || | ||
+ | |- | ||
+ | | style="background:#eaecf0;" | '''10''' [[ Запись]] || [[ Ноутбук]] Reinforcement Learning from Human Feedback || 23/03/24 || | ||
|} | |} | ||
Версия 21:51, 17 января 2024
Содержание
О курсе
Занятия проводятся в Zoom по субботам в 14:30.
Контакты
Чат курса в TG: chat link
Преподаватель: Лактионов Сергей Дмитриевич
Ассистент | Контакты |
---|---|
Кирилл Козлов | @dedpe |
Илья Никитин | @is_nikitin |
Материалы курса
Ссылка на плейлист курса на YouTube: YouTube-playlist
Записи лекций и семинаров предпредыдущего потока: [Яндекс.Диск]
Ссылка на GitHub с материалами курса: GitHub repository
Занятие | Тема | Дата | |
---|---|---|---|
1 Запись | Ноутбук Introduction to RL, Bellman equations, Dynamic Programming | 20/01/24 | |
2 Запись | Ноутбук Model-free RL, tabular case | 27/01/24 | |
3 Запись | Ноутбук Intro to deep RL: from DQN to RAINBOW and beyond | 03/02/24 | |
4 Запись | Ноутбук Policy Gradients Methods, Actor-Critic | 10/02/24 | |
5 Запись | Ноутбук Advanced Actor-Critic Algorithms: TRPO, PPO | 17/02/24 | |
6 Запись | Ноутбук Continuous Control: DDPG, TD3, SAC | 24/02/24 | |
7 Запись | Ноутбук Offline RL | 02/03/24 | |
8 Запись | Ноутбук Multi-armed Bandits | 09/03/24 | |
9 Запись | Ноутбук Model-based RL | 16/03/24 | |
10 Запись | Ноутбук Reinforcement Learning from Human Feedback | 23/03/24 |
Формула оценивания
Оценка = МИН(10, 10*(0.7*HW/12 + 0.3*RC/5)), где HW - сумма баллов за 4 ДЗ (2 простых и 2 сложных с 8.75 бонусными баллами), а RC - оценка за презентацию статьи, посвященной новым алгоритмам или неожиданным применениям RL-парадигмы в индустрии
Домашние задания
- HW-1 "Deep Cross-Entropy Method" (2 балла + 0.5) | Мягкий дедлайн - ..., Жёсткий - ... | Ноутбук
- HW-2 "Markov Decision Process" (2 балла + 0.5) | Мягкий дедлайн - ..., Жёсткий - ... | Ноутбук
- HW-3 "DQN CNN Implementation" (4 балла + 6.75) | Мягкий дедлайн - ..., Жёсткий - ... | Ноутбук
- HW-4 "Advantage-Actor Critic" (4 балла + 0.5) | Мягкий дедлайн - ..., Жёсткий - ... | Ноутбук
- Разбор статьи (40% общей оценки) | Список примеров | Таблица для записи | Дедлайн - ...
Литература
- Саттон, Р. С. - Обучение с подкреплением
- https://eds.p.ebscohost.com/eds/detail/detail?vid=9&sid=43ffa483-7342-447f-8a09-ab883238b6e9%40redis&bdata=JnNpdGU9ZWRzLWxpdmU%3d#AN=1094&db=nlebk