МОВС Обучение с подкреплением (RL) 2023-24 7 модуль — различия между версиями

Материал из Wiki - Факультет компьютерных наук
Перейти к: навигация, поиск
(Домашние задания)
м
 
(не показаны 22 промежуточные версии 3 участников)
Строка 16: Строка 16:
 
|-
 
|-
 
| style="background:#eaecf0;" | Илья Никитин || [https://t.me/is_nikitin @is_nikitin]
 
| style="background:#eaecf0;" | Илья Никитин || [https://t.me/is_nikitin @is_nikitin]
 +
|-
 +
| style="background:#eaecf0;" | Марк Блуменау || [https://t.me/markblumenau @markblumenau]
 +
|-
 +
| style="background:#eaecf0;" | Алиса || [https://t.me/alisaxsh @alisaxsh]
 +
|-
 +
| style="background:#eaecf0;" | Разин Арслан || [https://t.me/CrazyBadRedCat @CrazyBadRedCat]
 +
|-
 +
| style="background:#eaecf0;" | Георгий Золотов || [https://t.me/Zolotov_Georgy @Zolotov_Georgy]
 
|-
 
|-
 
|}
 
|}
  
 
==Материалы курса==
 
==Материалы курса==
Ссылка на плейлист курса на YouTube: [[ YouTube-playlist]]
+
Ссылка на плейлист курса на YouTube: [[https://youtube.com/playlist?list=PLmA-1xX7IuzAO3gkubS2I6LuqDNBs1xcP&feature=shared YouTube-playlist]]
  
 
Записи лекций и семинаров предпредыдущего потока: [[https://disk.yandex.ru/d/xZbe-qARVmWkuw Яндекс.Диск]]
 
Записи лекций и семинаров предпредыдущего потока: [[https://disk.yandex.ru/d/xZbe-qARVmWkuw Яндекс.Диск]]
  
Ссылка на GitHub с материалами курса: [[ GitHub repository]]
+
Ссылка на GitHub с материалами курса: [[https://github.com/laktionov/RL-course/tree/pmi_movs_2024 GitHub repository]]
  
 
{| class="wikitable"
 
{| class="wikitable"
Строка 30: Строка 38:
 
  ! Занятие !! Тема !! Дата  
 
  ! Занятие !! Тема !! Дата  
 
|-
 
|-
| style="background:#eaecf0;" | '''1''' [[ Запись]] || [[ Ноутбук]] Introduction to RL, Bellman equations, Dynamic Programming ||  20/01/24 ||
+
| style="background:#eaecf0;" | '''1''' [[https://youtu.be/sNrMJw-kylw?si=AKVTgEZ28hGgwgcC Запись]] || [[https://github.com/laktionov/RL-course/blob/pmi_movs_2024/week1_intro_dynamic_programming/solve_rl_tasks_without_rl.ipynb Ноутбук]] Introduction to RL, Bellman equations, Dynamic Programming ||  20/01/24 ||
 
|-
 
|-
| style="background:#eaecf0;" | '''2''' [[ Запись]] || [[ Ноутбук]] Model-free RL, tabular case || 27/01/24 ||
+
| style="background:#eaecf0;" | '''2''' [[https://www.youtube.com/watch?v=mhB8AuLZS6w&list=PLmA-1xX7IuzAO3gkubS2I6LuqDNBs1xcP&index=2&t=3133s Запись]] || [[https://github.com/laktionov/RL-course/blob/pmi_movs_2024/week2_model_free_rl/tabular_rl.ipynb Ноутбук]] Model-free RL, tabular case || 27/01/24 ||
 
|-
 
|-
| style="background:#eaecf0;" | '''3''' [[ Запись]] || [[ Ноутбук]] Intro to deep RL: from DQN to RAINBOW and beyond || 03/02/24 ||
+
| style="background:#eaecf0;" | '''3''' [[https://youtu.be/HXfEKvFlYVU Запись]] || [[https://github.com/laktionov/RL-course/blob/pmi_movs_2024/week3_dqn/dqn_for_cartpole.ipynb Ноутбук]] Intro to deep RL: from DQN to RAINBOW and beyond || 03/02/24 ||
 
|-
 
|-
| style="background:#eaecf0;" | '''4''' [[ Запись]] || [[ Ноутбук]] Policy Gradients Methods, Actor-Critic || 10/02/24 ||
+
| style="background:#eaecf0;" | '''4''' [[https://youtu.be/cfql51ddiaM Запись]] || [[https://github.com/laktionov/RL-course/blob/pmi_movs_2024/week4_policy_based/reinforce.ipynb Ноутбук1] [https://github.com/laktionov/RL-course/blob/pmi_movs_2024/week4_policy_based/a2c.ipynb Ноутбук2]] Policy Gradients Methods, Actor-Critic || 10/02/24 ||
 
|-
 
|-
| style="background:#eaecf0;" | '''5''' [[ Запись]] || [[ Ноутбук]] Advanced Actor-Critic Algorithms: TRPO, PPO || 17/02/24 ||
+
| style="background:#eaecf0;" | '''5''' [[https://www.youtube.com/watch?v=xq2E--hYu3E Запись]] || [[https://github.com/laktionov/RL-course/blob/pmi_movs_2024/week5_advanced_policy_based/trpo.ipynb Ноутбук]] Advanced Actor-Critic Algorithms: TRPO, PPO || 17/02/24 ||
 
|-
 
|-
| style="background:#eaecf0;" | '''6''' [[ Запись]]|| [[ Ноутбук]] Continuous Control: DDPG, TD3, SAC || 24/02/24 ||
+
| style="background:#eaecf0;" | '''6''' [[https://youtu.be/cc_g4YA-2Ns Запись]]|| [[https://github.com/laktionov/RL-course/blob/pmi_movs_2024/week6_continuous_control/ddpg.ipynb Ноутбук]] Continuous Control: DDPG, TD3, SAC || 24/02/24 ||
 
|-
 
|-
| style="background:#eaecf0;" | '''7''' [[ Запись]]|| [[ Ноутбук]] Offline RL || 02/03/24 ||
+
| style="background:#eaecf0;" | '''7''' [[https://youtu.be/VJCzpwK8Z34 Запись]]|| [[https://github.com/laktionov/RL-course/blob/pmi_movs_2024/week7_offline_rl/awac_wip.ipynb Ноутбук]] Offline RL || 02/03/24 ||
 
|-
 
|-
| style="background:#eaecf0;" | '''8''' [[ Запись]] || [[ Ноутбук]] Multi-armed Bandits ||  09/03/24 ||
+
| style="background:#eaecf0;" | '''8''' [[https://www.youtube.com/watch?v=DCV12vsqPpQ&list=PLmA-1xX7IuzAO3gkubS2I6LuqDNBs1xcP&index=8 Запись]] || [[https://github.com/laktionov/RL-course/blob/pmi_movs_2024/week8_bandits/bandits.ipynb Ноутбук]] Multi-armed Bandits ||  09/03/24 ||
 
|-
 
|-
| style="background:#eaecf0;" | '''9''' [[ Запись]] || [[ Ноутбук]] Model-based RL ||  16/03/24 ||
+
| style="background:#eaecf0;" | '''9''' [[https://www.youtube.com/watch?v=TUsTw8H9Kco&list=PLmA-1xX7IuzAO3gkubS2I6LuqDNBs1xcP&index=9 Запись]] || [[https://github.com/yandexdataschool/Practical_RL/blob/master/week10_planning/seminar_MCTS.ipynb Ноутбук]] Model-based RL ||  16/03/24 ||
 
|-
 
|-
| style="background:#eaecf0;" | '''10''' [[ Запись]] || [[ Ноутбук]] Reinforcement Learning from Human Feedback ||  23/03/24 ||
+
| style="background:#eaecf0;" | '''10''' [[https://www.youtube.com/watch?v=O38wIRwciwc&list=PLmA-1xX7IuzAO3gkubS2I6LuqDNBs1xcP&index=10 Запись]] || Reinforcement Learning from Human Feedback ||  23/03/24 ||
 
|}
 
|}
  
 
==Формула оценивания==
 
==Формула оценивания==
  
Оценка = МИН(10, 10*(0.6*HW/14 + 0.3*RC/5 + 0.1*TA/9)), где HW - сумма баллов за 4 ДЗ (1 простое и 3 сложных), RC - оценка за презентацию статьи, TA - сумма баллов за квизы.
+
Оценка = МИН(10, 10*(0.6*HW/14 + 0.3*RC/5 + 0.1*TA/9)), где HW - сумма баллов за 4 ДЗ (1 простое и 3 сложных), RC - оценка за презентацию статьи, TA - сумма баллов за еженедельные квизы.
  
 
== Домашние задания ==
 
== Домашние задания ==
# HW-1 "Value- and policy-iteration algorithms" (''2 балла'')  | '''Мягкий дедлайн - 28/01/24''', Жёсткий - 04/02/24 | [[ Ноутбук]]
+
# HW-1 "Value- and policy-iteration algorithms" (''2 балла'')  | '''Мягкий дедлайн - 28/01/24''', Жёсткий - 04/02/24 | [[https://github.com/laktionov/RL-course/blob/pmi_movs_2024/hw1/hw-1-value-policy-iteration.ipynb Ноутбук]]
# HW-2 "DQN Implementation" (''4 балла'')  | '''Мягкий дедлайн - ...''', Жёсткий - ... | [[ Ноутбук]]
+
# HW-2 "DQN Implementation" (''4 балла'')  | '''Мягкий дедлайн - 18/02/24''', Жёсткий - 25/02/24 | [[https://github.com/laktionov/RL-course/blob/pmi_movs_2024/hw2/hw_2_dqn_cnn.ipynb Ноутбук]]
# HW-3 "A2C Implementation" (''4 балла'')  | '''Мягкий дедлайн - ...''', Жёсткий - ... | [[ Ноутбук]]
+
# HW-3 "PPO Implementation" (''4 балла'')  | '''Мягкий дедлайн - 03/03/24''', Жёсткий - 10/03/24 | [[https://github.com/laktionov/RL-course/blob/pmi_movs_2024/hw3/ppo.ipynb Ноутбук]]
# HW-4 "SAC Implementation" (''4 балла'')  | '''Мягкий дедлайн - ...''', Жёсткий - ... | [[ Ноутбук]]
+
# HW-4 "SAC Implementation" (''4 балла'')  | '''Мягкий дедлайн - 17/03/24''', Жёсткий - 24/03/24 | [[https://github.com/laktionov/RL-course/blob/pmi_movs_2024/hw4/sac.ipynb Ноутбук]]
  
* Разбор статьи (''30% общей оценки'') | [https://docs.google.com/spreadsheets/d/1hVPI11_UhKeSwFLZHq4enNpYoDAbd9KnaI83UuwaSZE/edit#gid=0 Список примеров] | [[ Таблица для записи]] | '''Дедлайн''' - '''...'''
+
* Разбор статьи (''30% общей оценки'') | [https://docs.google.com/spreadsheets/d/1hVPI11_UhKeSwFLZHq4enNpYoDAbd9KnaI83UuwaSZE/edit#gid=0 Список примеров] | [https://docs.google.com/spreadsheets/d/1VRTT8UBBqm_uXgu0E_iewunpXHGAowSTZ3vL4o0htD4/edit?usp=sharing Таблица для записи] | '''Дедлайн''' - '''Для согласования - 17/03/24, для загрузки видео и презентации - 24/03/24'''
  
 
== Литература ==
 
== Литература ==
# Саттон, Р. С. - Обучение с подкреплением
+
# [http://incompleteideas.net/book/the-book-2nd.html Reinforcement Learning: An Introduction by R.Sutton and A.Barto]
# https://eds.p.ebscohost.com/eds/detail/detail?vid=9&sid=43ffa483-7342-447f-8a09-ab883238b6e9%40redis&bdata=JnNpdGU9ZWRzLWxpdmU%3d#AN=1094&db=nlebk
+
# [https://github.com/yandexdataschool/Practical_RL Practical RL course by YSDA]
 +
# [https://www.davidsilver.uk/teaching/ David Silver's course]
 +
# [https://rail.eecs.berkeley.edu/deeprlcourse/ Sergey Levine's course]
 +
# [https://arxiv.org/abs/2201.09746 Reinforcement Learning Textbook (in Russian)]

Текущая версия на 17:53, 9 апреля 2024

О курсе

Занятия проводятся в Zoom по субботам в 14:30.

Контакты

Чат курса в TG: link

Преподаватель: Лактионов Сергей Дмитриевич

Ассистент Контакты
Кирилл Козлов @dedpe
Илья Никитин @is_nikitin
Марк Блуменау @markblumenau
Алиса @alisaxsh
Разин Арслан @CrazyBadRedCat
Георгий Золотов @Zolotov_Georgy

Материалы курса

Ссылка на плейлист курса на YouTube: [YouTube-playlist]

Записи лекций и семинаров предпредыдущего потока: [Яндекс.Диск]

Ссылка на GitHub с материалами курса: [GitHub repository]

Занятие Тема Дата
1 [Запись] [Ноутбук] Introduction to RL, Bellman equations, Dynamic Programming 20/01/24
2 [Запись] [Ноутбук] Model-free RL, tabular case 27/01/24
3 [Запись] [Ноутбук] Intro to deep RL: from DQN to RAINBOW and beyond 03/02/24
4 [Запись] [Ноутбук1 Ноутбук2] Policy Gradients Methods, Actor-Critic 10/02/24
5 [Запись] [Ноутбук] Advanced Actor-Critic Algorithms: TRPO, PPO 17/02/24
6 [Запись] [Ноутбук] Continuous Control: DDPG, TD3, SAC 24/02/24
7 [Запись] [Ноутбук] Offline RL 02/03/24
8 [Запись] [Ноутбук] Multi-armed Bandits 09/03/24
9 [Запись] [Ноутбук] Model-based RL 16/03/24
10 [Запись] Reinforcement Learning from Human Feedback 23/03/24

Формула оценивания

Оценка = МИН(10, 10*(0.6*HW/14 + 0.3*RC/5 + 0.1*TA/9)), где HW - сумма баллов за 4 ДЗ (1 простое и 3 сложных), RC - оценка за презентацию статьи, TA - сумма баллов за еженедельные квизы.

Домашние задания

  1. HW-1 "Value- and policy-iteration algorithms" (2 балла) | Мягкий дедлайн - 28/01/24, Жёсткий - 04/02/24 | [Ноутбук]
  2. HW-2 "DQN Implementation" (4 балла) | Мягкий дедлайн - 18/02/24, Жёсткий - 25/02/24 | [Ноутбук]
  3. HW-3 "PPO Implementation" (4 балла) | Мягкий дедлайн - 03/03/24, Жёсткий - 10/03/24 | [Ноутбук]
  4. HW-4 "SAC Implementation" (4 балла) | Мягкий дедлайн - 17/03/24, Жёсткий - 24/03/24 | [Ноутбук]

Литература

  1. Reinforcement Learning: An Introduction by R.Sutton and A.Barto
  2. Practical RL course by YSDA
  3. David Silver's course
  4. Sergey Levine's course
  5. Reinforcement Learning Textbook (in Russian)