Обучение с подкреплением 24/25 (МОВС23) — различия между версиями

Версия 04:40, 17 февраля 2025

Содержание

1 О курсе
2 Контакты
3 Материалы курса
4 Формула оценивания
5 Домашние задания
6 Литература

О курсе

Занятия проводятся в Zoom по субботам в 14:30.

Контакты

Чат курса в TG: link

Преподаватель: Лактионов Сергей Дмитриевич

Ассистент	Контакты
Оленина Александра	@alex_deer
Сивых Егор	@EgorSivykh
Прошин Александр	@Alex_Pro_7
Максутова Айза	@aiziks
Разин Арслан	@CrazyBadRedCat
Демиденко Никита	@kalxon
Никита	@Nn_holt

Материалы курса

Ссылка на плейлист курса на YouTube: YouTube-playlist

Записи лекций и семинаров предыдущего потока: [YouTube-playlist]

Ссылка на GitHub с материалами курса: [GitHub repository]

Занятие	Тема	Дата
1 Запись	[Ноутбук] Introduction to RL, Bellman equations, Dynamic Programming	18/01/25
2 Запись	Ноутбук Model-free RL, tabular case	25/01/25
3 Запись	Ноутбук Intro to deep RL: from DQN to RAINBOW and beyond	01/02/25
4 Запись	Ноутбук Policy Gradients Methods, Actor-Critic	08/02/25
5 Запись	Ноутбук Advanced Actor-Critic Algorithms: TRPO, PPO	15/02/25
6 Запись	Ноутбук Continuous Control: DDPG, TD3, SAC	22/02/25
7 Запись	Ноутбук Offline RL	01/03/25
8 Запись	Ноутбук Multi-armed Bandits	08/03/25
9 Запись	Ноутбук Model-based RL	15/03/25
10 Запись	RL in a context of LLM	22/03/25

Формула оценивания

Оценка = МИН(10, 10*(0.65*HW/20 + 0.25*RC/5 + 0.1*TA/9)), где HW - сумма баллов за 5 ДЗ (2 простое и 3 сложных), RC - оценка за презентацию статьи, TA - сумма баллов за еженедельные квизы.

Домашние задания

HW-1 "Value- and policy-iteration algorithms" (2 балла) | Мягкий дедлайн - 26/01/25, Жёсткий - 02/02/25 | [Ноутбук]

HW-2 "Tabular RL" (2 балла) | Мягкий дедлайн - 09/02/25, Жёсткий - 16/02/25 | [Ноутбук]

HW-3 "Duelling DDQN" (6 баллов) | Мягкий дедлайн - 02/03/25, Жёсткий - 09/03/25 | [Ноутбук]

HW-4 "PPO" (5 баллов) | Мягкий дедлайн - 09/03/25, Жёсткий - 16/03/25 | Ноутбук

HW-5 "SAC" (5 баллов) | Мягкий дедлайн - 23/03/25, Жёсткий - 30/03/25 | Ноутбук

@@ Строка 70: / Строка 70: @@
 # HW-1 "Value- and policy-iteration algorithms" (''2 балла'')  | '''Мягкий дедлайн - 26/01/25''', Жёсткий - 02/02/25 | [[https://github.com/laktionov/RL-course/blob/2025/hw1/hw-1-value-policy-iteration.ipynb Ноутбук]]
-== Домашние задания ==
 # HW-2 "Tabular RL" (''2 балла'')  | '''Мягкий дедлайн - 09/02/25''', Жёсткий - 16/02/25 | [[https://github.com/laktionov/RL-course/blob/2025/hw2/advanced_tabular_rl.ipynb Ноутбук]]
-== Домашние задания ==
 # HW-3 "Duelling DDQN" (''6 баллов'')  | '''Мягкий дедлайн - 02/03/25''', Жёсткий - 09/03/25 | [[https://github.com/laktionov/RL-course/blob/2025/hw3/dueling_ddqn.ipynb Ноутбук]]
-== Домашние задания ==
 # HW-4 "PPO" (''5 баллов'')  | '''Мягкий дедлайн - 09/03/25''', Жёсткий - 16/03/25 | [[ Ноутбук]]
-== Домашние задания ==
 # HW-5 "SAC" (''5 баллов'')  | '''Мягкий дедлайн - 23/03/25''', Жёсткий - 30/03/25 | [[ Ноутбук]]

Обучение с подкреплением 24/25 (МОВС23) — различия между версиями

Версия 04:40, 17 февраля 2025

Содержание

О курсе

Контакты

Материалы курса

Формула оценивания

Домашние задания

Литература

Навигация

Персональные инструменты

Пространства имён

Варианты

Просмотры

Действия

Поиск

Навигация

Инструменты