МОВС Обучение с подкреплением (RL) 2022-23 7модуль — различия между версиями
Материал из Wiki - Факультет компьютерных наук
(page creation) |
(add seminar 1 and all hws) |
||
Строка 20: | Строка 20: | ||
==Материалы курса== | ==Материалы курса== | ||
− | Ссылка на плейлист курса на YouTube: [[ YouTube-playlist]] | + | Ссылка на плейлист курса на YouTube: [[https://www.youtube.com/playlist?list=PLmA-1xX7IuzBwUh5VoEKl1FU3dLDPHf4F YouTube-playlist]] |
+ | |||
+ | Записи лекций и семинаров предыдущего потока: [[https://disk.yandex.ru/d/xZbe-qARVmWkuw Яндекс.Диск]] | ||
Ссылка на GitHub с материалами курса: [[ GitHub repository]] | Ссылка на GitHub с материалами курса: [[ GitHub repository]] | ||
Строка 28: | Строка 30: | ||
! Занятие !! Тема !! Дата !! Материалы для самоподготовки к семинарам !! Дополнительные материалы | ! Занятие !! Тема !! Дата !! Материалы для самоподготовки к семинарам !! Дополнительные материалы | ||
|- | |- | ||
− | | style="background:#eaecf0;" | '''1''' [[ Запись]] || [[ Ноутбук]] Intro, Cross-entropy Method: Постановка задачи RL, алгоритм CEM || 12.01.23 || || | + | | style="background:#eaecf0;" | '''1''' [[https://www.youtube.com/watch?v=Rj0sI_EUTfs&list=PLmA-1xX7IuzBwUh5VoEKl1FU3dLDPHf4F Запись]] || [[https://github.com/laktionov/RL-course/tree/main/week1_intro_cross_entropy Ноутбук]] Intro, Cross-entropy Method: Постановка задачи RL, алгоритм CEM || 12.01.23 || || |
|- | |- | ||
| style="background:#eaecf0;" | '''2''' [[ Запись]] || [[ Ноутбук]] Bellman Equations & Dynamic Programming: основные понятия (агент, среда, политика, состояние, действие, награда). MDP. V- и Q-функции. Уравнение Беллмана и ДП, Policy и Value Iteration алгоритмы || 19.01.23 || || | | style="background:#eaecf0;" | '''2''' [[ Запись]] || [[ Ноутбук]] Bellman Equations & Dynamic Programming: основные понятия (агент, среда, политика, состояние, действие, награда). MDP. V- и Q-функции. Уравнение Беллмана и ДП, Policy и Value Iteration алгоритмы || 19.01.23 || || | ||
Строка 54: | Строка 56: | ||
== Домашние задания == | == Домашние задания == | ||
− | # | + | # HW-1 "Deep Cross-Entropy Method" (''2 балла + 0.5'') | '''Мягкий дедлайн - 19.01.23 23:59''', Жёсткий - 26.01.23 | [[https://github.com/laktionov/RL-course/blob/main/hw1/deep-crossentropy-method.ipynb Ноутбук]] |
− | # | + | # HW-2 "Markov Decision Process" (''2 балла + 0.5'') | | [[https://github.com/laktionov/RL-course/blob/main/hw2/hw-2-value-policy-iteration.ipynb Ноутбук]] |
− | # | + | # HW-3 "DQN CNN Implementation" (''4 балла + 6.75'') | | [[https://github.com/laktionov/RL-course/blob/main/hw3/hw-3-dqn-cnn.ipynb Ноутбук]] |
− | # | + | # HW-4 "Advantage-Actor Critic" (''4 балла + 0.5'') | | [[https://github.com/laktionov/RL-course/blob/main/hw4/hw_4_advantage_actor_critic.ipynb Ноутбук]] |
== Литература == | == Литература == | ||
# Саттон, Р. С. - Обучение с подкреплением | # Саттон, Р. С. - Обучение с подкреплением | ||
# https://eds.p.ebscohost.com/eds/detail/detail?vid=9&sid=43ffa483-7342-447f-8a09-ab883238b6e9%40redis&bdata=JnNpdGU9ZWRzLWxpdmU%3d#AN=1094&db=nlebk | # https://eds.p.ebscohost.com/eds/detail/detail?vid=9&sid=43ffa483-7342-447f-8a09-ab883238b6e9%40redis&bdata=JnNpdGU9ZWRzLWxpdmU%3d#AN=1094&db=nlebk |
Версия 07:37, 18 января 2023
Содержание
О курсе
Занятия проводятся в [ Zoom] по четвергам в 19:00
Контакты
Канал курса в TG: [channel link]
Чат курса в TG: [chat link]
Преподаватель: Лактионов Сергей Дмитриевич
Ассистент | Контакты |
---|---|
Айжана Назирбекова | @astra_n |
Материалы курса
Ссылка на плейлист курса на YouTube: [YouTube-playlist]
Записи лекций и семинаров предыдущего потока: [Яндекс.Диск]
Ссылка на GitHub с материалами курса: GitHub repository
Занятие | Тема | Дата | Материалы для самоподготовки к семинарам | Дополнительные материалы |
---|---|---|---|---|
1 [Запись] | [Ноутбук] Intro, Cross-entropy Method: Постановка задачи RL, алгоритм CEM | 12.01.23 | ||
2 Запись | Ноутбук Bellman Equations & Dynamic Programming: основные понятия (агент, среда, политика, состояние, действие, награда). MDP. V- и Q-функции. Уравнение Беллмана и ДП, Policy и Value Iteration алгоритмы | 19.01.23 | ||
3 Запись | Ноутбук Model-free RL: Temporal Difference Learning, алгоритм Q-learning, семейство алгоритмов SARSA, on- и off-policy алгоритмы | 26.01.23 | ||
4 Запись | Ноутбук DQN и его модификации: аппроксимация Q-функции с помощью нейросети. Эпсилон-жадная политика. Применение алгоритма DQN для Atari сред. Модификации алгоритма DQN | 02.02.23 | ||
5 Запись | Ноутбук Policy Gradients Methods, Actor-Critic | 09.02.23 | ||
6 Запись | Ноутбук Advanced Policy Gradients Methods: методы 2-го порядка для стохастической оптимизации. Аппроксимация KL-дивергенции. Метод сопряжённых градиентов. Алгоритмы TRPO и PPO | 16.02.23 | ||
7 Запись | Ноутбук Continuous Control: непрерывное пространство действий, алгоритмы DDPG и SACC | 02.02.23 | ||
8 Запись | Ноутбук Multi-armed Bandits: введение понятия многорукого бандита. Regret Minimisation, UCB и Thompson Sampling алгоритмы | 09.02.23 |
Записи консультаций
Формула оценивания
Оценка = МИН(10, 10*(0.7*HW/12 + 0.3*RC/5)), где HW - сумма баллов за 4 ДЗ (2 простых и 2 сложных с 8.75 бонусными баллами), а RC - оценка за презентацию статьи, посвященной новым алгоритмам или неожиданным применениям RL-парадигмы в индустрии
Домашние задания
- HW-1 "Deep Cross-Entropy Method" (2 балла + 0.5) | Мягкий дедлайн - 19.01.23 23:59, Жёсткий - 26.01.23 | [Ноутбук]
- HW-2 "Markov Decision Process" (2 балла + 0.5) | | [Ноутбук]
- HW-3 "DQN CNN Implementation" (4 балла + 6.75) | | [Ноутбук]
- HW-4 "Advantage-Actor Critic" (4 балла + 0.5) | | [Ноутбук]
Литература
- Саттон, Р. С. - Обучение с подкреплением
- https://eds.p.ebscohost.com/eds/detail/detail?vid=9&sid=43ffa483-7342-447f-8a09-ab883238b6e9%40redis&bdata=JnNpdGU9ZWRzLWxpdmU%3d#AN=1094&db=nlebk