МОВС Обучение с подкреплением (RL) 2023-24 7 модуль — различия между версиями

Материал из Wiki - Факультет компьютерных наук
Перейти к: навигация, поиск
(Материалы курса)
Строка 30: Строка 30:
 
  ! Занятие !! Тема !! Дата  
 
  ! Занятие !! Тема !! Дата  
 
|-
 
|-
| style="background:#eaecf0;" | '''1''' [[ Запись]] || [[ Ноутбук]] Intro, Cross-entropy Method: Постановка задачи RL, алгоритм CEM ||   
+
| style="background:#eaecf0;" | '''1''' [[ Запись]] || [[ Ноутбук]] Introduction to RL, Bellman equations, Dynamic Programming ||  20/01/24 ||
 
|-
 
|-
| style="background:#eaecf0;" | '''2''' [[ Запись]] || [[ Ноутбук]] Bellman Equations & Dynamic Programming: основные понятия (агент, среда, политика, состояние, действие, награда). MDP. V- и Q-функции. Уравнение Беллмана и ДП, Policy и Value Iteration алгоритмы ||  
+
| style="background:#eaecf0;" | '''2''' [[ Запись]] || [[ Ноутбук]] Model-free RL, tabular case || 27/01/24 ||
 
|-
 
|-
| style="background:#eaecf0;" | '''3''' [[ Запись]] || [[ Ноутбук]] Model-free RL: Temporal Difference Learning, алгоритм Q-learning, семейство алгоритмов SARSA, on- и off-policy алгоритмы ||  
+
| style="background:#eaecf0;" | '''3''' [[ Запись]] || [[ Ноутбук]] Intro to deep RL: from DQN to RAINBOW and beyond || 03/02/24 ||
 
|-
 
|-
| style="background:#eaecf0;" | '''4''' [[ Запись]] || [[ Ноутбук]] DQN и его модификации: аппроксимация Q-функции с помощью нейросети. Эпсилон-жадная политика. Применение алгоритма DQN для Atari сред. Модификации алгоритма DQN ||  
+
| style="background:#eaecf0;" | '''4''' [[ Запись]] || [[ Ноутбук]] Policy Gradients Methods, Actor-Critic || 10/02/24 ||
 
|-
 
|-
| style="background:#eaecf0;" | '''5''' [[ Запись]] || [[ Ноутбук]] Policy Gradients Methods, Actor-Critic ||  
+
| style="background:#eaecf0;" | '''5''' [[ Запись]] || [[ Ноутбук]] Advanced Actor-Critic Algorithms: TRPO, PPO || 17/02/24 ||
 
|-
 
|-
| style="background:#eaecf0;" | '''6''' [[ Запись]]|| [[ Ноутбук]] Advanced Policy Gradients Methods: методы 2-го порядка для стохастической оптимизации. Аппроксимация KL-дивергенции. Метод сопряжённых градиентов. Алгоритмы TRPO и PPO ||  
+
| style="background:#eaecf0;" | '''6''' [[ Запись]]|| [[ Ноутбук]] Continuous Control: DDPG, TD3, SAC || 24/02/24 ||
 
|-
 
|-
| style="background:#eaecf0;" | '''7''' [ Запись]] || [[ Слайды]] Continuous Control: непрерывное пространство действий, алгоритмы DDPG и SACC ||  
+
| style="background:#eaecf0;" | '''7''' [[ Запись]]|| [[ Ноутбук]] Offline RL || 02/03/24 ||
 
|-
 
|-
| style="background:#eaecf0;" | '''8''' [[ Запись]] || [[ Ноутбук]] Multi-armed Bandits: введение понятия многорукого бандита. Regret Minimisation, UCB и Thompson Sampling алгоритмы ||   
+
| style="background:#eaecf0;" | '''8''' [[ Запись]] || [[ Ноутбук]] Multi-armed Bandits ||  09/03/24 ||
 
|-
 
|-
 +
| style="background:#eaecf0;" | '''9''' [[ Запись]] || [[ Ноутбук]] Model-based RL ||  16/03/24 ||
 +
|-
 +
| style="background:#eaecf0;" | '''10''' [[ Запись]] || [[ Ноутбук]] Reinforcement Learning from Human Feedback ||  23/03/24 ||
 
|}
 
|}
  

Версия 21:51, 17 января 2024

О курсе

Занятия проводятся в Zoom по субботам в 14:30.

Контакты

Чат курса в TG: chat link

Преподаватель: Лактионов Сергей Дмитриевич

Ассистент Контакты
Кирилл Козлов @dedpe
Илья Никитин @is_nikitin

Материалы курса

Ссылка на плейлист курса на YouTube: YouTube-playlist

Записи лекций и семинаров предпредыдущего потока: [Яндекс.Диск]

Ссылка на GitHub с материалами курса: GitHub repository

Занятие Тема Дата
1 Запись Ноутбук Introduction to RL, Bellman equations, Dynamic Programming 20/01/24
2 Запись Ноутбук Model-free RL, tabular case 27/01/24
3 Запись Ноутбук Intro to deep RL: from DQN to RAINBOW and beyond 03/02/24
4 Запись Ноутбук Policy Gradients Methods, Actor-Critic 10/02/24
5 Запись Ноутбук Advanced Actor-Critic Algorithms: TRPO, PPO 17/02/24
6 Запись Ноутбук Continuous Control: DDPG, TD3, SAC 24/02/24
7 Запись Ноутбук Offline RL 02/03/24
8 Запись Ноутбук Multi-armed Bandits 09/03/24
9 Запись Ноутбук Model-based RL 16/03/24
10 Запись Ноутбук Reinforcement Learning from Human Feedback 23/03/24

Формула оценивания

Оценка = МИН(10, 10*(0.7*HW/12 + 0.3*RC/5)), где HW - сумма баллов за 4 ДЗ (2 простых и 2 сложных с 8.75 бонусными баллами), а RC - оценка за презентацию статьи, посвященной новым алгоритмам или неожиданным применениям RL-парадигмы в индустрии

Домашние задания

  1. HW-1 "Deep Cross-Entropy Method" (2 балла + 0.5) | Мягкий дедлайн - ..., Жёсткий - ... | Ноутбук
  2. HW-2 "Markov Decision Process" (2 балла + 0.5) | Мягкий дедлайн - ..., Жёсткий - ... | Ноутбук
  3. HW-3 "DQN CNN Implementation" (4 балла + 6.75) | Мягкий дедлайн - ..., Жёсткий - ... | Ноутбук
  4. HW-4 "Advantage-Actor Critic" (4 балла + 0.5) | Мягкий дедлайн - ..., Жёсткий - ... | Ноутбук

Литература

  1. Саттон, Р. С. - Обучение с подкреплением
  2. https://eds.p.ebscohost.com/eds/detail/detail?vid=9&sid=43ffa483-7342-447f-8a09-ab883238b6e9%40redis&bdata=JnNpdGU9ZWRzLWxpdmU%3d#AN=1094&db=nlebk