МОВС Обучение с подкреплением (RL) 2023-24 7 модуль — различия между версиями

Версия 02:05, 2 февраля 2024

Содержание

1 О курсе
2 Контакты
3 Материалы курса
4 Формула оценивания
5 Домашние задания
6 Литература

О курсе

Занятия проводятся в Zoom по субботам в 14:30.

Контакты

Чат курса в TG: link

Преподаватель: Лактионов Сергей Дмитриевич

Ассистент	Контакты
Кирилл Козлов	@dedpe
Илья Никитин	@is_nikitin
Марк Блуменау	@markblumenau
Алиса	@alisaxsh
Разин Арслан	@CrazyBadRedCat
Георгий Золотов	@Zolotov_Georgy

Материалы курса

Ссылка на плейлист курса на YouTube: [YouTube-playlist]

Записи лекций и семинаров предпредыдущего потока: [Яндекс.Диск]

Ссылка на GitHub с материалами курса: [GitHub repository]

Занятие	Тема	Дата
1 [Запись]	[Ноутбук] Introduction to RL, Bellman equations, Dynamic Programming	20/01/24
2 [Запись]	[Ноутбук] Model-free RL, tabular case	27/01/24
3 Запись	Ноутбук Intro to deep RL: from DQN to RAINBOW and beyond	03/02/24
4 Запись	Ноутбук Policy Gradients Methods, Actor-Critic	10/02/24
5 Запись	Ноутбук Advanced Actor-Critic Algorithms: TRPO, PPO	17/02/24
6 Запись	Ноутбук Continuous Control: DDPG, TD3, SAC	24/02/24
7 Запись	Ноутбук Offline RL	02/03/24
8 Запись	Ноутбук Multi-armed Bandits	09/03/24
9 Запись	Ноутбук Model-based RL	16/03/24
10 Запись	Ноутбук Reinforcement Learning from Human Feedback	23/03/24

Формула оценивания

Оценка = МИН(10, 10*(0.6*HW/14 + 0.3*RC/5 + 0.1*TA/9)), где HW - сумма баллов за 4 ДЗ (1 простое и 3 сложных), RC - оценка за презентацию статьи, TA - сумма баллов за еженедельные квизы.

Домашние задания

HW-1 "Value- and policy-iteration algorithms" (2 балла) | Мягкий дедлайн - 28/01/24, Жёсткий - 04/02/24 | [Ноутбук]
HW-2 "DQN Implementation" (4 балла) | Мягкий дедлайн - 18/02/24, Жёсткий - 25/02/24 | Ноутбук
HW-3 "A2C Implementation" (4 балла) | Мягкий дедлайн - 03/03/24, Жёсткий - 10/03/24 | Ноутбук
HW-4 "SAC Implementation" (4 балла) | Мягкий дедлайн - 17/03/24, Жёсткий - 24/03/24 | Ноутбук

Разбор статьи (30% общей оценки) | Список примеров | Таблица для записи | Дедлайн - ...

@@ Строка 28: / Строка 28: @@
 ==Материалы курса==
-Ссылка на плейлист курса на YouTube: [[https://youtube.com/playlist?list=PLmA-1xX7IuzAO3gkubS2I6LuqDNBs1xcP&feature=shared, YouTube-playlist]]
+Ссылка на плейлист курса на YouTube: [[https://youtube.com/playlist?list=PLmA-1xX7IuzAO3gkubS2I6LuqDNBs1xcP&feature=shared YouTube-playlist]]
 Записи лекций и семинаров предпредыдущего потока: [[https://disk.yandex.ru/d/xZbe-qARVmWkuw Яндекс.Диск]]
-Ссылка на GitHub с материалами курса: [[https://github.com/laktionov/RL-course/tree/pmi_movs_2024, GitHub repository]]
+Ссылка на GitHub с материалами курса: [[https://github.com/laktionov/RL-course/tree/pmi_movs_2024 GitHub repository]]
 {| class="wikitable"
@@ Строка 38: / Строка 38: @@
   ! Занятие !! Тема !! Дата
 |-
-| style="background:#eaecf0;" | '''1''' [[https://youtu.be/sNrMJw-kylw?si=AKVTgEZ28hGgwgcC, Запись]] || [[https://github.com/laktionov/RL-course/blob/pmi_movs_2024/week1_intro_dynamic_programming/solve_rl_tasks_without_rl.ipynb, Ноутбук]] Introduction to RL, Bellman equations, Dynamic Programming ||  20/01/24 ||
+| style="background:#eaecf0;" | '''1''' [[https://youtu.be/sNrMJw-kylw?si=AKVTgEZ28hGgwgcC Запись]] || [[https://github.com/laktionov/RL-course/blob/pmi_movs_2024/week1_intro_dynamic_programming/solve_rl_tasks_without_rl.ipynb Ноутбук]] Introduction to RL, Bellman equations, Dynamic Programming ||  20/01/24 ||
 |-
-| style="background:#eaecf0;" | '''2''' [[https://www.youtube.com/watch?v=mhB8AuLZS6w&list=PLmA-1xX7IuzAO3gkubS2I6LuqDNBs1xcP&index=2&t=3133s, Запись]] || [[https://github.com/laktionov/RL-course/blob/pmi_movs_2024/week2_model_free_rl/tabular_rl.ipynb, Ноутбук]] Model-free RL, tabular case || 27/01/24 ||
+| style="background:#eaecf0;" | '''2''' [[https://www.youtube.com/watch?v=mhB8AuLZS6w&list=PLmA-1xX7IuzAO3gkubS2I6LuqDNBs1xcP&index=2&t=3133s Запись]] || [[https://github.com/laktionov/RL-course/blob/pmi_movs_2024/week2_model_free_rl/tabular_rl.ipynb Ноутбук]] Model-free RL, tabular case || 27/01/24 ||
 |-
 | style="background:#eaecf0;" | '''3''' [[ Запись]] || [[ Ноутбук]] Intro to deep RL: from DQN to RAINBOW and beyond || 03/02/24 ||
@@ Строка 64: / Строка 64: @@
 == Домашние задания ==
-# HW-1 "Value- and policy-iteration algorithms" (''2 балла'')  | '''Мягкий дедлайн - 28/01/24''', Жёсткий - 04/02/24 | [[https://github.com/laktionov/RL-course/blob/pmi_movs_2024/week1_intro_dynamic_programming/solve_rl_tasks_without_rl.ipynb, Ноутбук]]
+# HW-1 "Value- and policy-iteration algorithms" (''2 балла'')  | '''Мягкий дедлайн - 28/01/24''', Жёсткий - 04/02/24 | [[https://github.com/laktionov/RL-course/blob/pmi_movs_2024/hw1/hw-1-value-policy-iteration.ipynb Ноутбук]]
 # HW-2 "DQN Implementation" (''4 балла'')  | '''Мягкий дедлайн - 18/02/24''', Жёсткий - 25/02/24 | [[ Ноутбук]]
 # HW-3 "A2C Implementation" (''4 балла'')  | '''Мягкий дедлайн - 03/03/24''', Жёсткий - 10/03/24 | [[ Ноутбук]]

МОВС Обучение с подкреплением (RL) 2023-24 7 модуль — различия между версиями

Версия 02:05, 2 февраля 2024

Содержание

О курсе

Контакты

Материалы курса

Формула оценивания

Домашние задания

Литература

Навигация

Персональные инструменты

Пространства имён

Варианты

Просмотры

Действия

Поиск

Навигация

Инструменты