Курс на Stepik
Обложка курса «Глубокое обучение с подкреплением» на Stepik
Бесплатно

Глубокое обучение с подкреплением 4.400

Открыть на
STEPIK.ORG

Курс рассказывает о различных алгоритмах глубокого обучения с подкреплением, и включает в себя как основные понятия и классические алгоритмы RL, так и обзор важных поднаправлений в области обучения с подкреплением.

Показатель Текущие показатели Рост
Значение 🏆 Рейтинг 3 дн 7 дн 30 дн
Количество учеников на курсе «Глубокое обучение с подкреплением»Учеников на курсе 1 261
Сертификаты, выданные на курсе «Глубокое обучение с подкреплением»Сертификатов выдано 0
Отзывы о курсе «Глубокое обучение с подкреплением»Отзывов получено 5
Рейтинг курса «Глубокое обучение с подкреплением»Рейтинг курса 4.400
Уроки в курсе «Глубокое обучение с подкреплением»Количество уроков 13
Тесты в курсе «Глубокое обучение с подкреплением»Количество квизов 25
Время прохождения курса «Глубокое обучение с подкреплением»Время прохождения курса
Обновления курса «Глубокое обучение с подкреплением»Обновления курса
Дата публикации курса «Глубокое обучение с подкреплением»Дата публикации курса
Последнее обновление курса «Глубокое обучение с подкреплением»Последнее обновление
Сложность easy

Содержание курса

Разделы в курсе «Глубокое обучение с подкреплением» 3 раздела Уроки в курсе «Глубокое обучение с подкреплением» 13 уроков Тесты в курсе «Глубокое обучение с подкреплением» 25 тестов Время прохождения курса «Глубокое обучение с подкреплением» 11 ч. Последнее обновление курса «Глубокое обучение с подкреплением» обн. 2 года назад

1. Основы обучения с подкреплением

2 урока
Закрытый
1.1 Обучение с подкреплением, многорукие бандиты и Value Iteration
1 006
240
41м 51с
18
Закрытый
1.2 Monte-Carlo Control и Q-learning
432
143
37м 5с
10

2. Классические алгоритмы глубокого обучения с подкреплением

5 уроков
Закрытый
2.1 Алгоритм Deep Q-Network и его модификации
321
79
77м 33с
7
Закрытый
2.2 On-policy RL: REINFORCE и Actor-Critic
202
81
36м 38с
3
Закрытый
2.3 On-policy RL: TRPO и PPO
184
62
50м 21с
4
Закрытый
2.4 Off-policy RL: DDPG, TD3 и SAC
149
60
49м 24с
2
Закрытый
2.5 Распределенные алгоритмы RL
143
60
40м 39с
1

3. Дополнительные главы

6 уроков
Закрытый
3.1 Model-based RL
159
55
60м 52с
3
Закрытый
3.2 Эффективное исследование окружения
133
46
64м 36с
1
Закрытый
3.3 Мультиагентный RL, Skill Learning и иерархический RL
121
58
78м 5с
2
Закрытый
3.4 Multitask RL, Goal-based RL и Imitation Learning
109
54
71м 47с
1
Закрытый
3.5 Offline RL. Применение RL в рекомендательных системах
136
60
64м 50с
1
Закрытый
3.6 Кейсы применения RL в различных задачах
165
165
22м 26с
1