Содержание курса
1. Основы обучения с подкреплением
2 урока
1 438
383
78м
28
Закрытый
1.1
Обучение с подкреплением, многорукие бандиты и Value Iteration
↗
1 006
240
41м 51с
18
Закрытый
1.2
Monte-Carlo Control и Q-learning
↗
432
143
37м 5с
10
2. Классические алгоритмы глубокого обучения с подкреплением
5 уроков
999
342
252м
17
Закрытый
2.1
Алгоритм Deep Q-Network и его модификации
↗
321
79
77м 33с
7
Закрытый
2.2
On-policy RL: REINFORCE и Actor-Critic
↗
202
81
36м 38с
3
Закрытый
2.3
On-policy RL: TRPO и PPO
↗
184
62
50м 21с
4
Закрытый
2.4
Off-policy RL: DDPG, TD3 и SAC
↗
149
60
49м 24с
2
Закрытый
2.5
Распределенные алгоритмы RL
↗
143
60
40м 39с
1
3. Дополнительные главы
6 уроков
823
438
359м
9
Закрытый
3.1
Model-based RL
↗
159
55
60м 52с
3
Закрытый
3.2
Эффективное исследование окружения
↗
133
46
64м 36с
1
Закрытый
3.3
Мультиагентный RL, Skill Learning и иерархический RL
↗
121
58
78м 5с
2
Закрытый
3.4
Multitask RL, Goal-based RL и Imitation Learning
↗
109
54
71м 47с
1
Закрытый
3.5
Offline RL. Применение RL в рекомендательных системах
↗
136
60
64м 50с
1
Закрытый
3.6
Кейсы применения RL в различных задачах
↗
165
165
22м 26с
1