Обучение с подкреплением 24/25 (МОВС23) — различия между версиями

Материал из Wiki - Факультет компьютерных наук
Перейти к: навигация, поиск
(Новая страница: «==О курсе== Занятия проводятся в [ Zoom] '''по ...<день>... в ...<время>...''' Онлайн-курс в дополнение…»)
 
Строка 1: Строка 1:
 
==О курсе==
 
==О курсе==
  
Занятия проводятся в [ Zoom] '''по ...<день>... в ...<время>...'''
+
Занятия проводятся в [https://us06web.zoom.us/j/83989277435?pwd=bWZqj4WbblAPbsJaE0KSbgMmJNgnWY.1 Zoom] '''по субботам в 14:30.'''
 
+
Онлайн-курс в дополнение к парам: [[ online-course link]]
+
  
 
==Контакты==
 
==Контакты==
  
Канал курса в TG: [[ channel link]]
+
Чат курса в TG: [https://t.me/+m2pVU4F3nsU2YmIy link]
 
+
Чат курса в TG: [[ chat link]]
+
  
Преподаватель:  
+
Преподаватель: Лактионов Сергей Дмитриевич
  
 
{| class="wikitable"
 
{| class="wikitable"
Строка 17: Строка 13:
 
! Ассистент !! Контакты  
 
! Ассистент !! Контакты  
 
|-
 
|-
| style="background:#eaecf0;" | ||  
+
| style="background:#eaecf0;" | Оленина Александра || [https://t.me/alex_deer @alex_deer]
 
|-
 
|-
| style="background:#eaecf0;" | ||  
+
| style="background:#eaecf0;" | Сивых Егор || [https://t.me/EgorSivykh @EgorSivykh]
 +
|-
 +
| style="background:#eaecf0;" | Прошин Александр || [https://t.me/Alex_Pro_7 @Alex_Pro_7]
 +
|-
 +
| style="background:#eaecf0;" | Максутова Айза || [https://t.me/aiziks @aiziks]
 +
|-
 +
| style="background:#eaecf0;" | Разин Арслан || [https://t.me/CrazyBadRedCat @CrazyBadRedCat]
 +
|-
 +
| style="background:#eaecf0;" | Демиденко Никита || [https://t.me/kalxon @kalxon]
 +
|-
 +
| style="background:#eaecf0;" | Никита || [https://t.me/Nn_holt @Nn_holt]
 +
|-
 +
 
 
|}
 
|}
  
 
==Материалы курса==
 
==Материалы курса==
Ссылка на плейлист курса на YouTube: [[ YouTube-playlist]]
+
Ссылка на плейлист курса на YouTube: [[YouTube-playlist]]
  
Ссылка на GitHub с материалами курса: [[ GitHub repository]]
+
Записи лекций и семинаров предыдущего потока: [[https://www.youtube.com/playlist?list=PLmA-1xX7IuzAO3gkubS2I6LuqDNBs1xcP YouTube-playlist]]
 +
 
 +
Ссылка на GitHub с материалами курса: [[https://github.com/laktionov/RL-course/tree/2025 GitHub repository]]
  
 
{| class="wikitable"
 
{| class="wikitable"
 
|-
 
|-
  ! Занятие !! Тема !! Дата !! Материалы для самоподготовки к семинарам !! Дополнительные материалы
+
  ! Занятие !! Тема !! Дата  
 
|-
 
|-
| style="background:#eaecf0;" | '''1''' [[ Запись]] || [[ Ноутбук]] || ...<date>... || ||  
+
| style="background:#eaecf0;" | '''1''' [[Запись]] || [[https://github.com/laktionov/RL-course/blob/2025/week1_intro_dynamic_programming/solve_rl_tasks_without_rl.ipynb Ноутбук]] Introduction to RL, Bellman equations, Dynamic Programming || 18/01/25 ||
 
|-
 
|-
| style="background:#eaecf0;" | '''2''' [[ Запись]] || [[ Ноутбук]] || ...<date>... || ||  
+
| style="background:#eaecf0;" | '''2''' [[Запись]] || [[Ноутбук]] Model-free RL, tabular case || 25/01/25 ||
 
|-
 
|-
| style="background:#eaecf0;" | '''3''' [[ Запись]] || [[ Ноутбук]] || ...<date>... || ||
+
| style="background:#eaecf0;" | '''3''' [[Запись]] || [[Ноутбук]] Intro to deep RL: from DQN to RAINBOW and beyond || 01/02/25 ||
 
|-
 
|-
| style="background:#eaecf0;" | '''4''' [[ Запись]] || [[ Ноутбук]] || ...<date>... || ||  
+
| style="background:#eaecf0;" | '''4''' [[Запись]] || [[Ноутбук]] Policy Gradients Methods, Actor-Critic || 08/02/25 ||
 
|-
 
|-
| style="background:#eaecf0;" | '''5''' [[ Запись]] || [[ Ноутбук]] || ...<date>... || ||  
+
| style="background:#eaecf0;" | '''5''' [[Запись]] || [[Ноутбук]] Advanced Actor-Critic Algorithms: TRPO, PPO || 15/02/25 ||
 
|-
 
|-
| style="background:#eaecf0;" | '''6''' [[ Запись]] || [[ Ноутбук]] || ...<date>... || ||  
+
| style="background:#eaecf0;" | '''6''' [[Запись]]|| [[Ноутбук]] Continuous Control: DDPG, TD3, SAC || 22/02/25 ||
 
|-
 
|-
| Конец первого модуля |
+
| style="background:#eaecf0;" | '''7''' [[Запись]]|| [[Ноутбук]] Offline RL || 01/03/25 ||
 
|-
 
|-
| style="background:#eaecf0;" | '''7''' [[ Запись]] || [[ Ноутбук]] || ...<date>... || ||  
+
| style="background:#eaecf0;" | '''8''' [[Запись]] || [[Ноутбук]] Multi-armed Bandits || 08/03/25 ||
 
|-
 
|-
| style="background:#eaecf0;" | '''8''' [[ Запись]] || [[ Ноутбук]] || ...<date>... || ||
+
| style="background:#eaecf0;" | '''9''' [[Запись]] || [[Ноутбук]] Model-based RL || 15/03/25 ||
|-
+
| style="background:#eaecf0;" | '''9''' [[ Запись]] || [[ Ноутбук]] || ...<date>... || ||
+
|-
+
| style="background:#eaecf0;" | '''10''' [[ Запись]] || [[ Ноутбук]] || ...<date>... || ||
+
|-
+
| style="background:#eaecf0;" | '''11''' [[ Запись]] || [[ Ноутбук]] || ...<date>... || ||
+
|-
+
| style="background:#eaecf0;" | '''12''' [[ Запись]] || [[ Ноутбук]] || ...<date>... || ||  
+
 
|-
 
|-
 +
| style="background:#eaecf0;" | '''10''' [[Запись]] || RL in a context of LLM ||  22/03/25 ||
 
|}
 
|}
 
=== Записи консультаций ===
 
 
  
 
==Формула оценивания==
 
==Формула оценивания==
  
Оценка = ...<вес 1>...*О<sub>...<форма контроля 1>...</sub> + ...<вес 2>...*О<sub>...<форма контроля 2>...</sub> + ...<вес 3>...*О<sub>...<форма контроля 3>...</sub>
+
Оценка = МИН(10, 10*(0.65*HW/20 + 0.25*RC/5 + 0.1*TA/9)), где HW - сумма баллов за 5 ДЗ (2 простое и 3 сложных), RC - оценка за презентацию статьи, TA - сумма баллов за еженедельные квизы.
 
+
  
 
== Домашние задания ==
 
== Домашние задания ==
#  
+
# HW-1 "Value- and policy-iteration algorithms" (''2 балла'')  | '''Мягкий дедлайн - 26/01/25''', Жёсткий - 02/02/25 | [[https://github.com/laktionov/RL-course/blob/pmi_movs_2024/hw1/hw-1-value-policy-iteration.ipynb Ноутбук]]
#
+
 
#
+
#
+
  
 
== Литература ==
 
== Литература ==
#  
+
# [http://incompleteideas.net/book/the-book-2nd.html Reinforcement Learning: An Introduction by R.Sutton and A.Barto]
#  
+
# [https://github.com/yandexdataschool/Practical_RL Practical RL course by YSDA]
#  
+
# [https://www.davidsilver.uk/teaching/ David Silver's course]
#
+
# [https://rail.eecs.berkeley.edu/deeprlcourse/ Sergey Levine's course]
 +
# [https://arxiv.org/abs/2201.09746 Reinforcement Learning Textbook (in Russian)]

Версия 22:22, 18 января 2025

О курсе

Занятия проводятся в Zoom по субботам в 14:30.

Контакты

Чат курса в TG: link

Преподаватель: Лактионов Сергей Дмитриевич

Ассистент Контакты
Оленина Александра @alex_deer
Сивых Егор @EgorSivykh
Прошин Александр @Alex_Pro_7
Максутова Айза @aiziks
Разин Арслан @CrazyBadRedCat
Демиденко Никита @kalxon
Никита @Nn_holt

Материалы курса

Ссылка на плейлист курса на YouTube: YouTube-playlist

Записи лекций и семинаров предыдущего потока: [YouTube-playlist]

Ссылка на GitHub с материалами курса: [GitHub repository]

Занятие Тема Дата
1 Запись [Ноутбук] Introduction to RL, Bellman equations, Dynamic Programming 18/01/25
2 Запись Ноутбук Model-free RL, tabular case 25/01/25
3 Запись Ноутбук Intro to deep RL: from DQN to RAINBOW and beyond 01/02/25
4 Запись Ноутбук Policy Gradients Methods, Actor-Critic 08/02/25
5 Запись Ноутбук Advanced Actor-Critic Algorithms: TRPO, PPO 15/02/25
6 Запись Ноутбук Continuous Control: DDPG, TD3, SAC 22/02/25
7 Запись Ноутбук Offline RL 01/03/25
8 Запись Ноутбук Multi-armed Bandits 08/03/25
9 Запись Ноутбук Model-based RL 15/03/25
10 Запись RL in a context of LLM 22/03/25

Формула оценивания

Оценка = МИН(10, 10*(0.65*HW/20 + 0.25*RC/5 + 0.1*TA/9)), где HW - сумма баллов за 5 ДЗ (2 простое и 3 сложных), RC - оценка за презентацию статьи, TA - сумма баллов за еженедельные квизы.

Домашние задания

  1. HW-1 "Value- and policy-iteration algorithms" (2 балла) | Мягкий дедлайн - 26/01/25, Жёсткий - 02/02/25 | [Ноутбук]


Литература

  1. Reinforcement Learning: An Introduction by R.Sutton and A.Barto
  2. Practical RL course by YSDA
  3. David Silver's course
  4. Sergey Levine's course
  5. Reinforcement Learning Textbook (in Russian)