МОВС Обучение с подкреплением (RL) 2022-23 7модуль — различия между версиями

Материал из Wiki - Факультет компьютерных наук
Перейти к: навигация, поиск
(page creation)
 
(finalization)
 
(не показаны 4 промежуточные версии этого же участника)
Строка 1: Строка 1:
 
==О курсе==
 
==О курсе==
  
Занятия проводятся в [ Zoom] '''по четвергам в 19:00'''
+
Занятия проводятся в [https://us06web.zoom.us/j/86000610748?pwd=VEJyTDJLcVpYMTVLRXNaSjBOQWdUUT09 Zoom] '''по четвергам в 19:00'''
  
 
==Контакты==
 
==Контакты==
Строка 20: Строка 20:
  
 
==Материалы курса==
 
==Материалы курса==
Ссылка на плейлист курса на YouTube: [[ YouTube-playlist]]
+
Ссылка на плейлист курса на YouTube: [[https://www.youtube.com/playlist?list=PLmA-1xX7IuzBwUh5VoEKl1FU3dLDPHf4F YouTube-playlist]]
  
Ссылка на GitHub с материалами курса: [[ GitHub repository]]
+
Записи лекций и семинаров предыдущего потока: [[https://disk.yandex.ru/d/xZbe-qARVmWkuw Яндекс.Диск]]
 +
 
 +
Ссылка на GitHub с материалами курса: [[https://github.com/laktionov/RL-course GitHub repository]]
  
 
{| class="wikitable"
 
{| class="wikitable"
 
|-
 
|-
  ! Занятие !! Тема !! Дата !! Материалы для самоподготовки к семинарам !! Дополнительные материалы
+
  ! Занятие !! Тема !! Дата  
 
|-
 
|-
| style="background:#eaecf0;" | '''1''' [[ Запись]] || [[ Ноутбук]] Intro, Cross-entropy Method: Постановка задачи RL, алгоритм CEM || 12.01.23 || ||
+
| style="background:#eaecf0;" | '''1''' [[https://www.youtube.com/watch?v=Rj0sI_EUTfs&list=PLmA-1xX7IuzBwUh5VoEKl1FU3dLDPHf4F Запись]] || [[https://github.com/laktionov/RL-course/tree/main/week1_intro_cross_entropy Ноутбук]] Intro, Cross-entropy Method: Постановка задачи RL, алгоритм CEM || 12.01.23  
 
|-
 
|-
| style="background:#eaecf0;" | '''2''' [[ Запись]] || [[ Ноутбук]] Bellman Equations & Dynamic Programming: основные понятия (агент, среда, политика, состояние, действие, награда). MDP. V- и Q-функции. Уравнение Беллмана и ДП, Policy и Value Iteration алгоритмы || 19.01.23 || ||
+
| style="background:#eaecf0;" | '''2''' [[https://www.youtube.com/watch?v=Va0s2v3QrKY&list=PLmA-1xX7IuzBwUh5VoEKl1FU3dLDPHf4F Запись]] || [[https://github.com/laktionov/RL-course/tree/main/week2_dynamic_programming Ноутбук]] Bellman Equations & Dynamic Programming: основные понятия (агент, среда, политика, состояние, действие, награда). MDP. V- и Q-функции. Уравнение Беллмана и ДП, Policy и Value Iteration алгоритмы || 19.01.23  
 
|-
 
|-
| style="background:#eaecf0;" | '''3''' [[ Запись]] || [[ Ноутбук]] Model-free RL: Temporal Difference Learning, алгоритм Q-learning, семейство алгоритмов SARSA, on- и off-policy алгоритмы || 26.01.23 || ||
+
| style="background:#eaecf0;" | '''3''' [[https://www.youtube.com/watch?v=uPEaVeiXSlc&list=PLmA-1xX7IuzBwUh5VoEKl1FU3dLDPHf4F Запись]] || [[https://github.com/laktionov/RL-course/tree/main/week3_model_free Ноутбук]] Model-free RL: Temporal Difference Learning, алгоритм Q-learning, семейство алгоритмов SARSA, on- и off-policy алгоритмы || 26.01.23  
 
|-
 
|-
| style="background:#eaecf0;" | '''4''' [[ Запись]] || [[ Ноутбук]] DQN и его модификации: аппроксимация Q-функции с помощью нейросети. Эпсилон-жадная политика. Применение алгоритма DQN для Atari сред. Модификации алгоритма DQN || 02.02.23 || ||
+
| style="background:#eaecf0;" | '''4''' [[https://www.youtube.com/watch?v=RIFEBr3ZZKU&list=PLmA-1xX7IuzBwUh5VoEKl1FU3dLDPHf4F Запись]] || [[https://github.com/laktionov/RL-course/tree/main/week4_dqn Ноутбук]] DQN и его модификации: аппроксимация Q-функции с помощью нейросети. Эпсилон-жадная политика. Применение алгоритма DQN для Atari сред. Модификации алгоритма DQN || 02.02.23  
 
|-
 
|-
| style="background:#eaecf0;" | '''5''' [[ Запись]] || [[ Ноутбук]] Policy Gradients Methods, Actor-Critic || 09.02.23 || ||
+
| style="background:#eaecf0;" | '''5''' [[https://www.youtube.com/watch?v=a9I13tQeUC8&list=PLmA-1xX7IuzBwUh5VoEKl1FU3dLDPHf4F Запись]] || [[https://github.com/laktionov/RL-course/tree/main/week5_policy_gradient Ноутбук]] Policy Gradients Methods, Actor-Critic || 09.02.23  
 
|-
 
|-
| style="background:#eaecf0;" | '''6''' [[ Запись]] || [[ Ноутбук]] Advanced Policy Gradients Methods: методы 2-го порядка для стохастической оптимизации. Аппроксимация KL-дивергенции. Метод сопряжённых градиентов. Алгоритмы TRPO и PPO || 16.02.23 || ||
+
| style="background:#eaecf0;" | '''6''', не состоялось|| [[https://github.com/laktionov/RL-course/tree/main/week6_advanced_policy_based Ноутбук]] Advanced Policy Gradients Methods: методы 2-го порядка для стохастической оптимизации. Аппроксимация KL-дивергенции. Метод сопряжённых градиентов. Алгоритмы TRPO и PPO || 16.02.23  
 
|-
 
|-
| style="background:#eaecf0;" | '''7''' [[ Запись]] || [[ Ноутбук]] Continuous Control: непрерывное пространство действий, алгоритмы DDPG и SACC || 02.02.23 || ||
+
| style="background:#eaecf0;" | '''7''' [[https://www.youtube.com/watch?v=icCIBogpBqE&list=PLmA-1xX7IuzBwUh5VoEKl1FU3dLDPHf4F Запись]] || [[https://github.com/laktionov/RL-course/blob/main/week7_continuous_control/Lecture7.pdf Слайды]] Continuous Control: непрерывное пространство действий, алгоритмы DDPG и SACC || 02.03.23  
 
|-
 
|-
| style="background:#eaecf0;" | '''8''' [[ Запись]] || [[ Ноутбук]] Multi-armed Bandits: введение понятия многорукого бандита. Regret Minimisation, UCB и Thompson Sampling алгоритмы || 09.02.23 || ||
+
| style="background:#eaecf0;" | '''8''' [[https://www.youtube.com/watch?v=jy65ZjYYZ-c&list=PLmA-1xX7IuzBwUh5VoEKl1FU3dLDPHf4F Запись]] || [[https://github.com/laktionov/RL-course/tree/main/week8_bandits Ноутбук]] Multi-armed Bandits: введение понятия многорукого бандита. Regret Minimisation, UCB и Thompson Sampling алгоритмы || 09.03.23  
 
|-
 
|-
 
|}
 
|}
 
=== Записи консультаций ===
 
 
  
 
==Формула оценивания==
 
==Формула оценивания==
Строка 54: Строка 53:
  
 
== Домашние задания ==
 
== Домашние задания ==
#  
+
# HW-1 "Deep Cross-Entropy Method" (''2 балла + 0.5'') | '''Мягкий дедлайн - 19.01.23 23:59''', Жёсткий - 26.01.23 | [[https://github.com/laktionov/RL-course/blob/main/hw1/deep-crossentropy-method.ipynb Ноутбук]]
#  
+
# HW-2 "Markov Decision Process" (''2 балла + 0.5'') | '''Мягкий дедлайн - 26.01.23 23:59''', Жёсткий - 02.02.23 23:59 | [[https://github.com/laktionov/RL-course/blob/main/hw2/hw-2-value-policy-iteration.ipynb Ноутбук]]
#  
+
# HW-3 "DQN CNN Implementation" (''4 балла + 6.75'') | '''Мягкий дедлайн - 23.02.23 23:59''', Жёсткий - 02.03.23 23:59| [[https://github.com/laktionov/RL-course/blob/main/hw3/hw-3-dqn-cnn.ipynb Ноутбук]]
#  
+
# HW-4 "Advantage-Actor Critic" (''4 балла + 0.5'') | '''Мягкий дедлайн''' - <strike>04.03.23</strike> '''11.03.23 23:59''', Жёсткий - <strike>11.03.23</strike> ''18.03.23'' 23:59 | [[https://github.com/laktionov/RL-course/blob/main/hw4/hw_4_advantage_actor_critic.ipynb Ноутбук]]
 +
 
 +
* Разбор статьи (''40% общей оценки'') | [https://docs.google.com/spreadsheets/d/1hVPI11_UhKeSwFLZHq4enNpYoDAbd9KnaI83UuwaSZE/edit#gid=0 Список примеров] | [[https://docs.google.com/spreadsheets/d/1hVPI11_UhKeSwFLZHq4enNpYoDAbd9KnaI83UuwaSZE/edit?usp=sharing Таблица для записи]] | '''Дедлайн''' - <strike>08.03.23</strike> '''15.03.23 23:59 МСК'''
  
 
== Литература ==
 
== Литература ==
 
# Саттон, Р. С. - Обучение с подкреплением
 
# Саттон, Р. С. - Обучение с подкреплением
 
# https://eds.p.ebscohost.com/eds/detail/detail?vid=9&sid=43ffa483-7342-447f-8a09-ab883238b6e9%40redis&bdata=JnNpdGU9ZWRzLWxpdmU%3d#AN=1094&db=nlebk
 
# https://eds.p.ebscohost.com/eds/detail/detail?vid=9&sid=43ffa483-7342-447f-8a09-ab883238b6e9%40redis&bdata=JnNpdGU9ZWRzLWxpdmU%3d#AN=1094&db=nlebk

Текущая версия на 14:10, 11 марта 2023

О курсе

Занятия проводятся в Zoom по четвергам в 19:00

Контакты

Канал курса в TG: [channel link]

Чат курса в TG: [chat link]

Преподаватель: Лактионов Сергей Дмитриевич

Ассистент Контакты
Айжана Назирбекова @astra_n

Материалы курса

Ссылка на плейлист курса на YouTube: [YouTube-playlist]

Записи лекций и семинаров предыдущего потока: [Яндекс.Диск]

Ссылка на GitHub с материалами курса: [GitHub repository]

Занятие Тема Дата
1 [Запись] [Ноутбук] Intro, Cross-entropy Method: Постановка задачи RL, алгоритм CEM 12.01.23
2 [Запись] [Ноутбук] Bellman Equations & Dynamic Programming: основные понятия (агент, среда, политика, состояние, действие, награда). MDP. V- и Q-функции. Уравнение Беллмана и ДП, Policy и Value Iteration алгоритмы 19.01.23
3 [Запись] [Ноутбук] Model-free RL: Temporal Difference Learning, алгоритм Q-learning, семейство алгоритмов SARSA, on- и off-policy алгоритмы 26.01.23
4 [Запись] [Ноутбук] DQN и его модификации: аппроксимация Q-функции с помощью нейросети. Эпсилон-жадная политика. Применение алгоритма DQN для Atari сред. Модификации алгоритма DQN 02.02.23
5 [Запись] [Ноутбук] Policy Gradients Methods, Actor-Critic 09.02.23
6, не состоялось [Ноутбук] Advanced Policy Gradients Methods: методы 2-го порядка для стохастической оптимизации. Аппроксимация KL-дивергенции. Метод сопряжённых градиентов. Алгоритмы TRPO и PPO 16.02.23
7 [Запись] [Слайды] Continuous Control: непрерывное пространство действий, алгоритмы DDPG и SACC 02.03.23
8 [Запись] [Ноутбук] Multi-armed Bandits: введение понятия многорукого бандита. Regret Minimisation, UCB и Thompson Sampling алгоритмы 09.03.23

Формула оценивания

Оценка = МИН(10, 10*(0.7*HW/12 + 0.3*RC/5)), где HW - сумма баллов за 4 ДЗ (2 простых и 2 сложных с 8.75 бонусными баллами), а RC - оценка за презентацию статьи, посвященной новым алгоритмам или неожиданным применениям RL-парадигмы в индустрии

Домашние задания

  1. HW-1 "Deep Cross-Entropy Method" (2 балла + 0.5) | Мягкий дедлайн - 19.01.23 23:59, Жёсткий - 26.01.23 | [Ноутбук]
  2. HW-2 "Markov Decision Process" (2 балла + 0.5) | Мягкий дедлайн - 26.01.23 23:59, Жёсткий - 02.02.23 23:59 | [Ноутбук]
  3. HW-3 "DQN CNN Implementation" (4 балла + 6.75) | Мягкий дедлайн - 23.02.23 23:59, Жёсткий - 02.03.23 23:59| [Ноутбук]
  4. HW-4 "Advantage-Actor Critic" (4 балла + 0.5) | Мягкий дедлайн - 04.03.23 11.03.23 23:59, Жёсткий - 11.03.23 18.03.23 23:59 | [Ноутбук]

Литература

  1. Саттон, Р. С. - Обучение с подкреплением
  2. https://eds.p.ebscohost.com/eds/detail/detail?vid=9&sid=43ffa483-7342-447f-8a09-ab883238b6e9%40redis&bdata=JnNpdGU9ZWRzLWxpdmU%3d#AN=1094&db=nlebk