МОВС Обучение с подкреплением (RL) 2023-24 7 модуль
Материал из Wiki - Факультет компьютерных наук
Версия от 08:37, 13 ноября 2023; SavelyProkhorov (обсуждение | вклад)
Содержание
[убрать]О курсе
Занятия проводятся в Zoom по ... в ...
Контакты
Чат курса в TG: chat link
Преподаватель: Лактионов Сергей Дмитриевич
Ассистент | Контакты |
---|---|
Кирилл Козлов | @dedpe |
Илья Никитин | @is_nikitin |
Материалы курса
Ссылка на плейлист курса на YouTube: YouTube-playlist
Записи лекций и семинаров предпредыдущего потока: [Яндекс.Диск]
Ссылка на GitHub с материалами курса: GitHub repository
Занятие | Тема | Дата |
---|---|---|
1 Запись | Ноутбук Intro, Cross-entropy Method: Постановка задачи RL, алгоритм CEM | |
2 Запись | Ноутбук Bellman Equations & Dynamic Programming: основные понятия (агент, среда, политика, состояние, действие, награда). MDP. V- и Q-функции. Уравнение Беллмана и ДП, Policy и Value Iteration алгоритмы | |
3 Запись | Ноутбук Model-free RL: Temporal Difference Learning, алгоритм Q-learning, семейство алгоритмов SARSA, on- и off-policy алгоритмы | |
4 Запись | Ноутбук DQN и его модификации: аппроксимация Q-функции с помощью нейросети. Эпсилон-жадная политика. Применение алгоритма DQN для Atari сред. Модификации алгоритма DQN | |
5 Запись | Ноутбук Policy Gradients Methods, Actor-Critic | |
6 Запись | Ноутбук Advanced Policy Gradients Methods: методы 2-го порядка для стохастической оптимизации. Аппроксимация KL-дивергенции. Метод сопряжённых градиентов. Алгоритмы TRPO и PPO | |
7 [ Запись]] | Слайды Continuous Control: непрерывное пространство действий, алгоритмы DDPG и SACC | |
8 Запись | Ноутбук Multi-armed Bandits: введение понятия многорукого бандита. Regret Minimisation, UCB и Thompson Sampling алгоритмы |
Формула оценивания
Оценка = МИН(10, 10*(0.7*HW/12 + 0.3*RC/5)), где HW - сумма баллов за 4 ДЗ (2 простых и 2 сложных с 8.75 бонусными баллами), а RC - оценка за презентацию статьи, посвященной новым алгоритмам или неожиданным применениям RL-парадигмы в индустрии
Домашние задания
- HW-1 "Deep Cross-Entropy Method" (2 балла + 0.5) | Мягкий дедлайн - ..., Жёсткий - ... | Ноутбук
- HW-2 "Markov Decision Process" (2 балла + 0.5) | Мягкий дедлайн - ..., Жёсткий - ... | Ноутбук
- HW-3 "DQN CNN Implementation" (4 балла + 6.75) | Мягкий дедлайн - ..., Жёсткий - ... | Ноутбук
- HW-4 "Advantage-Actor Critic" (4 балла + 0.5) | Мягкий дедлайн - ..., Жёсткий - ... | Ноутбук
- Разбор статьи (40% общей оценки) | Список примеров | Таблица для записи | Дедлайн - ...
Литература
- Саттон, Р. С. - Обучение с подкреплением
- https://eds.p.ebscohost.com/eds/detail/detail?vid=9&sid=43ffa483-7342-447f-8a09-ab883238b6e9%40redis&bdata=JnNpdGU9ZWRzLWxpdmU%3d#AN=1094&db=nlebk