МОВС Обучение с подкреплением (RL) 2022-23 7модуль — различия между версиями

Версия 13:42, 6 февраля 2023

Содержание

1 О курсе
2 Контакты
3 Материалы курса
- 3.1 Записи консультаций
4 Формула оценивания
5 Домашние задания
6 Литература

О курсе

Занятия проводятся в Zoom по четвергам в 19:00

Контакты

Канал курса в TG: [channel link]

Чат курса в TG: [chat link]

Преподаватель: Лактионов Сергей Дмитриевич

Ассистент	Контакты
Айжана Назирбекова	@astra_n

Материалы курса

Ссылка на плейлист курса на YouTube: [YouTube-playlist]

Записи лекций и семинаров предыдущего потока: [Яндекс.Диск]

Ссылка на GitHub с материалами курса: [GitHub repository]

Занятие	Тема	Дата
1 [Запись]	[Ноутбук] Intro, Cross-entropy Method: Постановка задачи RL, алгоритм CEM	12.01.23
2 [Запись]	[Ноутбук] Bellman Equations & Dynamic Programming: основные понятия (агент, среда, политика, состояние, действие, награда). MDP. V- и Q-функции. Уравнение Беллмана и ДП, Policy и Value Iteration алгоритмы	19.01.23
3 [Запись]	[Ноутбук] Model-free RL: Temporal Difference Learning, алгоритм Q-learning, семейство алгоритмов SARSA, on- и off-policy алгоритмы	26.01.23
4 [Запись]	[Ноутбук] DQN и его модификации: аппроксимация Q-функции с помощью нейросети. Эпсилон-жадная политика. Применение алгоритма DQN для Atari сред. Модификации алгоритма DQN	02.02.23
5 Запись	Ноутбук Policy Gradients Methods, Actor-Critic	09.02.23
6 Запись	Ноутбук Advanced Policy Gradients Methods: методы 2-го порядка для стохастической оптимизации. Аппроксимация KL-дивергенции. Метод сопряжённых градиентов. Алгоритмы TRPO и PPO	16.02.23
7 Запись	Ноутбук Continuous Control: непрерывное пространство действий, алгоритмы DDPG и SACC	02.02.23
8 Запись	Ноутбук Multi-armed Bandits: введение понятия многорукого бандита. Regret Minimisation, UCB и Thompson Sampling алгоритмы	09.02.23

Записи консультаций

Формула оценивания

Оценка = МИН(10, 10*(0.7*HW/12 + 0.3*RC/5)), где HW - сумма баллов за 4 ДЗ (2 простых и 2 сложных с 8.75 бонусными баллами), а RC - оценка за презентацию статьи, посвященной новым алгоритмам или неожиданным применениям RL-парадигмы в индустрии

Домашние задания

HW-1 "Deep Cross-Entropy Method" (2 балла + 0.5) | Мягкий дедлайн - 19.01.23 23:59, Жёсткий - 26.01.23 | [Ноутбук]
HW-2 "Markov Decision Process" (2 балла + 0.5) | | [Ноутбук]
HW-3 "DQN CNN Implementation" (4 балла + 6.75) | | [Ноутбук]
HW-4 "Advantage-Actor Critic" (4 балла + 0.5) | | [Ноутбук]

Литература

Саттон, Р. С. - Обучение с подкреплением
https://eds.p.ebscohost.com/eds/detail/detail?vid=9&sid=43ffa483-7342-447f-8a09-ab883238b6e9%40redis&bdata=JnNpdGU9ZWRzLWxpdmU%3d#AN=1094&db=nlebk

@@ Строка 1: / Строка 1: @@
 ==О курсе==
-Занятия проводятся в [ Zoom] '''по четвергам в 19:00'''
+Занятия проводятся в [https://us06web.zoom.us/j/86000610748?pwd=VEJyTDJLcVpYMTVLRXNaSjBOQWdUUT09 Zoom] '''по четвергам в 19:00'''
 ==Контакты==
@@ Строка 24: / Строка 24: @@
 Записи лекций и семинаров предыдущего потока: [[https://disk.yandex.ru/d/xZbe-qARVmWkuw Яндекс.Диск]]
-Ссылка на GitHub с материалами курса: [[ GitHub repository]]
+Ссылка на GitHub с материалами курса: [[https://github.com/laktionov/RL-course GitHub repository]]
 {| class="wikitable"
@@ Строка 32: / Строка 32: @@
 | style="background:#eaecf0;" | '''1''' [[https://www.youtube.com/watch?v=Rj0sI_EUTfs&list=PLmA-1xX7IuzBwUh5VoEKl1FU3dLDPHf4F Запись]] || [[https://github.com/laktionov/RL-course/tree/main/week1_intro_cross_entropy Ноутбук]] Intro, Cross-entropy Method: Постановка задачи RL, алгоритм CEM || 12.01.23 || ||
 |-
-| style="background:#eaecf0;" | '''2''' [[ Запись]] || [[ Ноутбук]] Bellman Equations & Dynamic Programming: основные понятия (агент, среда, политика, состояние, действие, награда). MDP. V- и Q-функции. Уравнение Беллмана и ДП, Policy и Value Iteration алгоритмы || 19.01.23 || ||
+| style="background:#eaecf0;" | '''2''' [[https://www.youtube.com/watch?v=Va0s2v3QrKY&list=PLmA-1xX7IuzBwUh5VoEKl1FU3dLDPHf4F Запись]] || [[https://github.com/laktionov/RL-course/tree/main/week2_dynamic_programming Ноутбук]] Bellman Equations & Dynamic Programming: основные понятия (агент, среда, политика, состояние, действие, награда). MDP. V- и Q-функции. Уравнение Беллмана и ДП, Policy и Value Iteration алгоритмы || 19.01.23 || ||
 |-
-| style="background:#eaecf0;" | '''3''' [[ Запись]] || [[ Ноутбук]] Model-free RL: Temporal Difference Learning, алгоритм Q-learning, семейство алгоритмов SARSA, on- и off-policy алгоритмы || 26.01.23 || ||
+| style="background:#eaecf0;" | '''3''' [[https://www.youtube.com/watch?v=uPEaVeiXSlc&list=PLmA-1xX7IuzBwUh5VoEKl1FU3dLDPHf4F Запись]] || [[https://github.com/laktionov/RL-course/tree/main/week3_model_free Ноутбук]] Model-free RL: Temporal Difference Learning, алгоритм Q-learning, семейство алгоритмов SARSA, on- и off-policy алгоритмы || 26.01.23 || ||
 |-
-| style="background:#eaecf0;" | '''4''' [[ Запись]] || [[ Ноутбук]] DQN и его модификации: аппроксимация Q-функции с помощью нейросети. Эпсилон-жадная политика. Применение алгоритма DQN для Atari сред. Модификации алгоритма DQN || 02.02.23 || ||
+| style="background:#eaecf0;" | '''4''' [[https://www.youtube.com/watch?v=RIFEBr3ZZKU&list=PLmA-1xX7IuzBwUh5VoEKl1FU3dLDPHf4F Запись]] || [[https://github.com/laktionov/RL-course/tree/main/week4_dqn Ноутбук]] DQN и его модификации: аппроксимация Q-функции с помощью нейросети. Эпсилон-жадная политика. Применение алгоритма DQN для Atari сред. Модификации алгоритма DQN || 02.02.23 || ||
 |-
 | style="background:#eaecf0;" | '''5''' [[ Запись]] || [[ Ноутбук]] Policy Gradients Methods, Actor-Critic || 09.02.23 || ||

МОВС Обучение с подкреплением (RL) 2022-23 7модуль — различия между версиями

Версия 13:42, 6 февраля 2023

Содержание

О курсе

Контакты

Материалы курса

Записи консультаций

Формула оценивания

Домашние задания

Литература

Навигация

Персональные инструменты

Пространства имён

Варианты

Просмотры

Действия

Поиск

Навигация

Инструменты