МОВС Обучение с подкреплением (RL) 2022-23 7модуль

Материал из Wiki - Факультет компьютерных наук
Версия от 15:18, 9 января 2023; SavelyProkhorov (обсуждение | вклад)

(разн.) ← Предыдущая | Текущая версия (разн.) | Следующая → (разн.)
Перейти к: навигация, поиск

О курсе

Занятия проводятся в [ Zoom] по четвергам в 19:00

Контакты

Канал курса в TG: [channel link]

Чат курса в TG: [chat link]

Преподаватель: Лактионов Сергей Дмитриевич

Ассистент Контакты
Айжана Назирбекова @astra_n

Материалы курса

Ссылка на плейлист курса на YouTube: YouTube-playlist

Ссылка на GitHub с материалами курса: GitHub repository

Занятие Тема Дата Материалы для самоподготовки к семинарам Дополнительные материалы
1 Запись Ноутбук Intro, Cross-entropy Method: Постановка задачи RL, алгоритм CEM 12.01.23
2 Запись Ноутбук Bellman Equations & Dynamic Programming: основные понятия (агент, среда, политика, состояние, действие, награда). MDP. V- и Q-функции. Уравнение Беллмана и ДП, Policy и Value Iteration алгоритмы 19.01.23
3 Запись Ноутбук Model-free RL: Temporal Difference Learning, алгоритм Q-learning, семейство алгоритмов SARSA, on- и off-policy алгоритмы 26.01.23
4 Запись Ноутбук DQN и его модификации: аппроксимация Q-функции с помощью нейросети. Эпсилон-жадная политика. Применение алгоритма DQN для Atari сред. Модификации алгоритма DQN 02.02.23
5 Запись Ноутбук Policy Gradients Methods, Actor-Critic 09.02.23
6 Запись Ноутбук Advanced Policy Gradients Methods: методы 2-го порядка для стохастической оптимизации. Аппроксимация KL-дивергенции. Метод сопряжённых градиентов. Алгоритмы TRPO и PPO 16.02.23
7 Запись Ноутбук Continuous Control: непрерывное пространство действий, алгоритмы DDPG и SACC 02.02.23
8 Запись Ноутбук Multi-armed Bandits: введение понятия многорукого бандита. Regret Minimisation, UCB и Thompson Sampling алгоритмы 09.02.23

Записи консультаций

Формула оценивания

Оценка = МИН(10, 10*(0.7*HW/12 + 0.3*RC/5)), где HW - сумма баллов за 4 ДЗ (2 простых и 2 сложных с 8.75 бонусными баллами), а RC - оценка за презентацию статьи, посвященной новым алгоритмам или неожиданным применениям RL-парадигмы в индустрии

Домашние задания

Литература

  1. Саттон, Р. С. - Обучение с подкреплением
  2. https://eds.p.ebscohost.com/eds/detail/detail?vid=9&sid=43ffa483-7342-447f-8a09-ab883238b6e9%40redis&bdata=JnNpdGU9ZWRzLWxpdmU%3d#AN=1094&db=nlebk