Обучение с подкреплением 24/25 (МОВС23) — различия между версиями
Материал из Wiki - Факультет компьютерных наук
Gazuev (обсуждение | вклад) (Новая страница: «==О курсе== Занятия проводятся в [ Zoom] '''по ...<день>... в ...<время>...''' Онлайн-курс в дополнение…») |
|||
| Строка 1: | Строка 1: | ||
==О курсе== | ==О курсе== | ||
| − | Занятия проводятся в [ Zoom] '''по | + | Занятия проводятся в [https://us06web.zoom.us/j/83989277435?pwd=bWZqj4WbblAPbsJaE0KSbgMmJNgnWY.1 Zoom] '''по субботам в 14:30.''' |
| − | + | ||
| − | + | ||
==Контакты== | ==Контакты== | ||
| − | + | Чат курса в TG: [https://t.me/+m2pVU4F3nsU2YmIy link] | |
| − | + | ||
| − | + | ||
| − | Преподаватель: | + | Преподаватель: Лактионов Сергей Дмитриевич |
{| class="wikitable" | {| class="wikitable" | ||
| Строка 17: | Строка 13: | ||
! Ассистент !! Контакты | ! Ассистент !! Контакты | ||
|- | |- | ||
| − | | style="background:#eaecf0;" | | + | | style="background:#eaecf0;" | Оленина Александра || [https://t.me/alex_deer @alex_deer] |
|- | |- | ||
| − | | style="background:#eaecf0;" | | + | | style="background:#eaecf0;" | Сивых Егор || [https://t.me/EgorSivykh @EgorSivykh] |
| + | |- | ||
| + | | style="background:#eaecf0;" | Прошин Александр || [https://t.me/Alex_Pro_7 @Alex_Pro_7] | ||
| + | |- | ||
| + | | style="background:#eaecf0;" | Максутова Айза || [https://t.me/aiziks @aiziks] | ||
| + | |- | ||
| + | | style="background:#eaecf0;" | Разин Арслан || [https://t.me/CrazyBadRedCat @CrazyBadRedCat] | ||
| + | |- | ||
| + | | style="background:#eaecf0;" | Демиденко Никита || [https://t.me/kalxon @kalxon] | ||
| + | |- | ||
| + | | style="background:#eaecf0;" | Никита || [https://t.me/Nn_holt @Nn_holt] | ||
| + | |- | ||
| + | |||
|} | |} | ||
==Материалы курса== | ==Материалы курса== | ||
| − | Ссылка на плейлист курса на YouTube: [[ YouTube-playlist]] | + | Ссылка на плейлист курса на YouTube: [[YouTube-playlist]] |
| − | Ссылка на GitHub с материалами курса: [[ GitHub repository]] | + | Записи лекций и семинаров предыдущего потока: [[https://www.youtube.com/playlist?list=PLmA-1xX7IuzAO3gkubS2I6LuqDNBs1xcP YouTube-playlist]] |
| + | |||
| + | Ссылка на GitHub с материалами курса: [[https://github.com/laktionov/RL-course/tree/2025 GitHub repository]] | ||
{| class="wikitable" | {| class="wikitable" | ||
|- | |- | ||
| − | ! Занятие !! Тема !! Дата | + | ! Занятие !! Тема !! Дата |
|- | |- | ||
| − | | style="background:#eaecf0;" | '''1''' [[ Запись]] || [[ Ноутбук]] | + | | style="background:#eaecf0;" | '''1''' [[Запись]] || [[https://github.com/laktionov/RL-course/blob/2025/week1_intro_dynamic_programming/solve_rl_tasks_without_rl.ipynb Ноутбук]] Introduction to RL, Bellman equations, Dynamic Programming || 18/01/25 || |
|- | |- | ||
| − | | style="background:#eaecf0;" | '''2''' [[ Запись]] || [[ Ноутбук]] || | + | | style="background:#eaecf0;" | '''2''' [[Запись]] || [[Ноутбук]] Model-free RL, tabular case || 25/01/25 || |
|- | |- | ||
| − | | style="background:#eaecf0;" | '''3''' [[ Запись]] || [[ Ноутбук]] || | + | | style="background:#eaecf0;" | '''3''' [[Запись]] || [[Ноутбук]] Intro to deep RL: from DQN to RAINBOW and beyond || 01/02/25 || |
|- | |- | ||
| − | | style="background:#eaecf0;" | '''4''' [[ Запись]] || [[ Ноутбук]] || | + | | style="background:#eaecf0;" | '''4''' [[Запись]] || [[Ноутбук]] Policy Gradients Methods, Actor-Critic || 08/02/25 || |
|- | |- | ||
| − | | style="background:#eaecf0;" | '''5''' [[ Запись]] || [[ Ноутбук]] || | + | | style="background:#eaecf0;" | '''5''' [[Запись]] || [[Ноутбук]] Advanced Actor-Critic Algorithms: TRPO, PPO || 15/02/25 || |
|- | |- | ||
| − | | style="background:#eaecf0;" | '''6''' [[ Запись]] || [[ Ноутбук]] || | + | | style="background:#eaecf0;" | '''6''' [[Запись]]|| [[Ноутбук]] Continuous Control: DDPG, TD3, SAC || 22/02/25 || |
|- | |- | ||
| − | | | + | | style="background:#eaecf0;" | '''7''' [[Запись]]|| [[Ноутбук]] Offline RL || 01/03/25 || |
|- | |- | ||
| − | | style="background:#eaecf0;" | ''' | + | | style="background:#eaecf0;" | '''8''' [[Запись]] || [[Ноутбук]] Multi-armed Bandits || 08/03/25 || |
|- | |- | ||
| − | + | | style="background:#eaecf0;" | '''9''' [[Запись]] || [[Ноутбук]] Model-based RL || 15/03/25 || | |
| − | + | ||
| − | | style="background:#eaecf0;" | '''9''' [[ Запись]] || [[ Ноутбук]] | + | |
| − | + | ||
| − | + | ||
| − | + | ||
| − | + | ||
| − | + | ||
| − | + | ||
|- | |- | ||
| + | | style="background:#eaecf0;" | '''10''' [[Запись]] || RL in a context of LLM || 22/03/25 || | ||
|} | |} | ||
| − | |||
| − | |||
| − | |||
==Формула оценивания== | ==Формула оценивания== | ||
| − | Оценка = . | + | Оценка = МИН(10, 10*(0.65*HW/20 + 0.25*RC/5 + 0.1*TA/9)), где HW - сумма баллов за 5 ДЗ (2 простое и 3 сложных), RC - оценка за презентацию статьи, TA - сумма баллов за еженедельные квизы. |
| − | + | ||
== Домашние задания == | == Домашние задания == | ||
| − | # | + | # HW-1 "Value- and policy-iteration algorithms" (''2 балла'') | '''Мягкий дедлайн - 26/01/25''', Жёсткий - 02/02/25 | [[https://github.com/laktionov/RL-course/blob/pmi_movs_2024/hw1/hw-1-value-policy-iteration.ipynb Ноутбук]] |
| − | + | ||
| − | + | ||
| − | + | ||
== Литература == | == Литература == | ||
| − | # | + | # [http://incompleteideas.net/book/the-book-2nd.html Reinforcement Learning: An Introduction by R.Sutton and A.Barto] |
| − | # | + | # [https://github.com/yandexdataschool/Practical_RL Practical RL course by YSDA] |
| − | # | + | # [https://www.davidsilver.uk/teaching/ David Silver's course] |
| − | # | + | # [https://rail.eecs.berkeley.edu/deeprlcourse/ Sergey Levine's course] |
| + | # [https://arxiv.org/abs/2201.09746 Reinforcement Learning Textbook (in Russian)] | ||
Версия 22:22, 18 января 2025
Содержание
О курсе
Занятия проводятся в Zoom по субботам в 14:30.
Контакты
Чат курса в TG: link
Преподаватель: Лактионов Сергей Дмитриевич
| Ассистент | Контакты |
|---|---|
| Оленина Александра | @alex_deer |
| Сивых Егор | @EgorSivykh |
| Прошин Александр | @Alex_Pro_7 |
| Максутова Айза | @aiziks |
| Разин Арслан | @CrazyBadRedCat |
| Демиденко Никита | @kalxon |
| Никита | @Nn_holt |
Материалы курса
Ссылка на плейлист курса на YouTube: YouTube-playlist
Записи лекций и семинаров предыдущего потока: [YouTube-playlist]
Ссылка на GitHub с материалами курса: [GitHub repository]
| Занятие | Тема | Дата | |
|---|---|---|---|
| 1 Запись | [Ноутбук] Introduction to RL, Bellman equations, Dynamic Programming | 18/01/25 | |
| 2 Запись | Ноутбук Model-free RL, tabular case | 25/01/25 | |
| 3 Запись | Ноутбук Intro to deep RL: from DQN to RAINBOW and beyond | 01/02/25 | |
| 4 Запись | Ноутбук Policy Gradients Methods, Actor-Critic | 08/02/25 | |
| 5 Запись | Ноутбук Advanced Actor-Critic Algorithms: TRPO, PPO | 15/02/25 | |
| 6 Запись | Ноутбук Continuous Control: DDPG, TD3, SAC | 22/02/25 | |
| 7 Запись | Ноутбук Offline RL | 01/03/25 | |
| 8 Запись | Ноутбук Multi-armed Bandits | 08/03/25 | |
| 9 Запись | Ноутбук Model-based RL | 15/03/25 | |
| 10 Запись | RL in a context of LLM | 22/03/25 |
Формула оценивания
Оценка = МИН(10, 10*(0.65*HW/20 + 0.25*RC/5 + 0.1*TA/9)), где HW - сумма баллов за 5 ДЗ (2 простое и 3 сложных), RC - оценка за презентацию статьи, TA - сумма баллов за еженедельные квизы.
Домашние задания
- HW-1 "Value- and policy-iteration algorithms" (2 балла) | Мягкий дедлайн - 26/01/25, Жёсткий - 02/02/25 | [Ноутбук]