МОВС Обучение с подкреплением (RL) 2023-24 7 модуль — различия между версиями

Версия 18:25, 18 января 2024

Содержание

1 О курсе
2 Контакты
3 Материалы курса
4 Формула оценивания
5 Домашние задания
6 Литература

О курсе

Занятия проводятся в Zoom по субботам в 14:30.

Контакты

Чат курса в TG: chat link

Преподаватель: Лактионов Сергей Дмитриевич

Ассистент	Контакты
Кирилл Козлов	@dedpe
Илья Никитин	@is_nikitin

Материалы курса

Ссылка на плейлист курса на YouTube: YouTube-playlist

Записи лекций и семинаров предпредыдущего потока: [Яндекс.Диск]

Ссылка на GitHub с материалами курса: GitHub repository

Занятие	Тема	Дата
1 Запись	Ноутбук Introduction to RL, Bellman equations, Dynamic Programming	20/01/24
2 Запись	Ноутбук Model-free RL, tabular case	27/01/24
3 Запись	Ноутбук Intro to deep RL: from DQN to RAINBOW and beyond	03/02/24
4 Запись	Ноутбук Policy Gradients Methods, Actor-Critic	10/02/24
5 Запись	Ноутбук Advanced Actor-Critic Algorithms: TRPO, PPO	17/02/24
6 Запись	Ноутбук Continuous Control: DDPG, TD3, SAC	24/02/24
7 Запись	Ноутбук Offline RL	02/03/24
8 Запись	Ноутбук Multi-armed Bandits	09/03/24
9 Запись	Ноутбук Model-based RL	16/03/24
10 Запись	Ноутбук Reinforcement Learning from Human Feedback	23/03/24

Формула оценивания

Оценка = МИН(10, 10*(0.6*HW/14 + 0.3*RC/5 + 0.1*TA/9)), где HW - сумма баллов за 4 ДЗ (1 простое и 3 сложных), RC - оценка за презентацию статьи, TA - сумма баллов за квизы.

Домашние задания

HW-1 "Deep Cross-Entropy Method" (2 балла + 0.5) | Мягкий дедлайн - ..., Жёсткий - ... | Ноутбук
HW-2 "Markov Decision Process" (2 балла + 0.5) | Мягкий дедлайн - ..., Жёсткий - ... | Ноутбук
HW-3 "DQN CNN Implementation" (4 балла + 6.75) | Мягкий дедлайн - ..., Жёсткий - ... | Ноутбук
HW-4 "Advantage-Actor Critic" (4 балла + 0.5) | Мягкий дедлайн - ..., Жёсткий - ... | Ноутбук

Разбор статьи (40% общей оценки) | Список примеров | Таблица для записи | Дедлайн - ...

Литература

Саттон, Р. С. - Обучение с подкреплением
https://eds.p.ebscohost.com/eds/detail/detail?vid=9&sid=43ffa483-7342-447f-8a09-ab883238b6e9%40redis&bdata=JnNpdGU9ZWRzLWxpdmU%3d#AN=1094&db=nlebk

@@ Строка 53: / Строка 53: @@
 ==Формула оценивания==
-Оценка = МИН(10, 10*(0.7*HW/12 + 0.3*RC/5)), где HW - сумма баллов за 4 ДЗ (2 простых и 2 сложных с 8.75 бонусными баллами), а RC - оценка за презентацию статьи, посвященной новым алгоритмам или неожиданным применениям RL-парадигмы в индустрии
+Оценка = МИН(10, 10*(0.6*HW/14 + 0.3*RC/5 + 0.1*TA/9)), где HW - сумма баллов за 4 ДЗ (1 простое и 3 сложных), RC - оценка за презентацию статьи, TA - сумма баллов за квизы.
 == Домашние задания ==

МОВС Обучение с подкреплением (RL) 2023-24 7 модуль — различия между версиями

Версия 18:25, 18 января 2024

Содержание

О курсе

Контакты

Материалы курса

Формула оценивания

Домашние задания

Литература

Навигация

Персональные инструменты

Пространства имён

Варианты

Просмотры

Действия

Поиск

Навигация

Инструменты