МОВС Обучение с подкреплением (RL) 2023-24 7 модуль — различия между версиями
Материал из Wiki - Факультет компьютерных наук
Gazuev (обсуждение | вклад) м |
|||
(не показаны 2 промежуточные версии 2 участников) | |||
Строка 52: | Строка 52: | ||
| style="background:#eaecf0;" | '''7''' [[https://youtu.be/VJCzpwK8Z34 Запись]]|| [[https://github.com/laktionov/RL-course/blob/pmi_movs_2024/week7_offline_rl/awac_wip.ipynb Ноутбук]] Offline RL || 02/03/24 || | | style="background:#eaecf0;" | '''7''' [[https://youtu.be/VJCzpwK8Z34 Запись]]|| [[https://github.com/laktionov/RL-course/blob/pmi_movs_2024/week7_offline_rl/awac_wip.ipynb Ноутбук]] Offline RL || 02/03/24 || | ||
|- | |- | ||
− | | style="background:#eaecf0;" | '''8''' [[ Запись]] || [[ Ноутбук]] Multi-armed Bandits || 09/03/24 || | + | | style="background:#eaecf0;" | '''8''' [[https://www.youtube.com/watch?v=DCV12vsqPpQ&list=PLmA-1xX7IuzAO3gkubS2I6LuqDNBs1xcP&index=8 Запись]] || [[https://github.com/laktionov/RL-course/blob/pmi_movs_2024/week8_bandits/bandits.ipynb Ноутбук]] Multi-armed Bandits || 09/03/24 || |
|- | |- | ||
− | | style="background:#eaecf0;" | '''9''' [[ Запись]] || [[ Ноутбук]] Model-based RL || 16/03/24 || | + | | style="background:#eaecf0;" | '''9''' [[https://www.youtube.com/watch?v=TUsTw8H9Kco&list=PLmA-1xX7IuzAO3gkubS2I6LuqDNBs1xcP&index=9 Запись]] || [[https://github.com/yandexdataschool/Practical_RL/blob/master/week10_planning/seminar_MCTS.ipynb Ноутбук]] Model-based RL || 16/03/24 || |
|- | |- | ||
− | | style="background:#eaecf0;" | '''10''' [[ Запись]] || | + | | style="background:#eaecf0;" | '''10''' [[https://www.youtube.com/watch?v=O38wIRwciwc&list=PLmA-1xX7IuzAO3gkubS2I6LuqDNBs1xcP&index=10 Запись]] || Reinforcement Learning from Human Feedback || 23/03/24 || |
|} | |} | ||
Строка 69: | Строка 69: | ||
# HW-4 "SAC Implementation" (''4 балла'') | '''Мягкий дедлайн - 17/03/24''', Жёсткий - 24/03/24 | [[https://github.com/laktionov/RL-course/blob/pmi_movs_2024/hw4/sac.ipynb Ноутбук]] | # HW-4 "SAC Implementation" (''4 балла'') | '''Мягкий дедлайн - 17/03/24''', Жёсткий - 24/03/24 | [[https://github.com/laktionov/RL-course/blob/pmi_movs_2024/hw4/sac.ipynb Ноутбук]] | ||
− | * Разбор статьи (''30% общей оценки'') | [https://docs.google.com/spreadsheets/d/1hVPI11_UhKeSwFLZHq4enNpYoDAbd9KnaI83UuwaSZE/edit#gid=0 Список примеров] | | + | * Разбор статьи (''30% общей оценки'') | [https://docs.google.com/spreadsheets/d/1hVPI11_UhKeSwFLZHq4enNpYoDAbd9KnaI83UuwaSZE/edit#gid=0 Список примеров] | [https://docs.google.com/spreadsheets/d/1VRTT8UBBqm_uXgu0E_iewunpXHGAowSTZ3vL4o0htD4/edit?usp=sharing Таблица для записи] | '''Дедлайн''' - '''Для согласования - 17/03/24, для загрузки видео и презентации - 24/03/24''' |
== Литература == | == Литература == |
Текущая версия на 17:53, 9 апреля 2024
Содержание
О курсе
Занятия проводятся в Zoom по субботам в 14:30.
Контакты
Чат курса в TG: link
Преподаватель: Лактионов Сергей Дмитриевич
Ассистент | Контакты |
---|---|
Кирилл Козлов | @dedpe |
Илья Никитин | @is_nikitin |
Марк Блуменау | @markblumenau |
Алиса | @alisaxsh |
Разин Арслан | @CrazyBadRedCat |
Георгий Золотов | @Zolotov_Georgy |
Материалы курса
Ссылка на плейлист курса на YouTube: [YouTube-playlist]
Записи лекций и семинаров предпредыдущего потока: [Яндекс.Диск]
Ссылка на GitHub с материалами курса: [GitHub repository]
Занятие | Тема | Дата | |
---|---|---|---|
1 [Запись] | [Ноутбук] Introduction to RL, Bellman equations, Dynamic Programming | 20/01/24 | |
2 [Запись] | [Ноутбук] Model-free RL, tabular case | 27/01/24 | |
3 [Запись] | [Ноутбук] Intro to deep RL: from DQN to RAINBOW and beyond | 03/02/24 | |
4 [Запись] | [Ноутбук1 Ноутбук2] Policy Gradients Methods, Actor-Critic | 10/02/24 | |
5 [Запись] | [Ноутбук] Advanced Actor-Critic Algorithms: TRPO, PPO | 17/02/24 | |
6 [Запись] | [Ноутбук] Continuous Control: DDPG, TD3, SAC | 24/02/24 | |
7 [Запись] | [Ноутбук] Offline RL | 02/03/24 | |
8 [Запись] | [Ноутбук] Multi-armed Bandits | 09/03/24 | |
9 [Запись] | [Ноутбук] Model-based RL | 16/03/24 | |
10 [Запись] | Reinforcement Learning from Human Feedback | 23/03/24 |
Формула оценивания
Оценка = МИН(10, 10*(0.6*HW/14 + 0.3*RC/5 + 0.1*TA/9)), где HW - сумма баллов за 4 ДЗ (1 простое и 3 сложных), RC - оценка за презентацию статьи, TA - сумма баллов за еженедельные квизы.
Домашние задания
- HW-1 "Value- and policy-iteration algorithms" (2 балла) | Мягкий дедлайн - 28/01/24, Жёсткий - 04/02/24 | [Ноутбук]
- HW-2 "DQN Implementation" (4 балла) | Мягкий дедлайн - 18/02/24, Жёсткий - 25/02/24 | [Ноутбук]
- HW-3 "PPO Implementation" (4 балла) | Мягкий дедлайн - 03/03/24, Жёсткий - 10/03/24 | [Ноутбук]
- HW-4 "SAC Implementation" (4 балла) | Мягкий дедлайн - 17/03/24, Жёсткий - 24/03/24 | [Ноутбук]
- Разбор статьи (30% общей оценки) | Список примеров | Таблица для записи | Дедлайн - Для согласования - 17/03/24, для загрузки видео и презентации - 24/03/24