Сколько стоит курс «Глубокое обучение с подкреплением»?

Курс «Глубокое обучение с подкреплением» доступен бесплатно.

Сколько времени занимает прохождение курса «Глубокое обучение с подкреплением»?

Прохождение курса «Глубокое обучение с подкреплением» занимает примерно 11 часов.

Какой рейтинг у курса «Глубокое обучение с подкреплением»?

Курс имеет рейтинг 4.4 из 5 на основе 5 отзывов. На курсе обучается 1 305 учеников.

Где можно пройти курс «Глубокое обучение с подкреплением»?

Курс доступен на образовательной платформе Stepik по адресу stepik.org/course/189738.

Курс на Stepik

Обложка курса «Глубокое обучение с подкреплением» на Stepik

Бесплатно

Глубокое обучение с подкреплением ★ 4.400

Name: Глубокое обучение с подкреплением
Availability: InStock
Rating: 4.4 (5 reviews)

Открыть на
STEPIK.ORG

Курс рассказывает о различных алгоритмах глубокого обучения с подкреплением, и включает в себя как основные понятия и классические алгоритмы RL, так и обзор важных поднаправлений в области обучения с подкреплением.

Показатель	Текущие показатели		Рост
Показатель	Значение	🏆 Рейтинг	3 дн	7 дн	30 дн
Учеников на курсе	1 305
Сертификатов выдано	0
Отзывов получено	5
Рейтинг курса	4.400
Количество уроков	13
Количество квизов	25
Время прохождения курса	11 ч.	—
Обновления курса	—	—
Дата публикации курса	2 года назад	—	—	—	—
Последнее обновление	2 года назад	—	—	—	—
Сложность	easy	—	—	—	—

Содержание курса

Разделы в курсе «Глубокое обучение с подкреплением»

3 раздела Уроки в курсе «Глубокое обучение с подкреплением»

13 уроков Тесты в курсе «Глубокое обучение с подкреплением»

25 тестов Время прохождения курса «Глубокое обучение с подкреплением»

11 ч.

обн. 2 года назад

1. Основы обучения с подкреплением

2 урока

Закрытый

1.1 Обучение с подкреплением, многорукие бандиты и Value Iteration ↗

1 006

240

41м 51с

Закрытый

1.2 Monte-Carlo Control и Q-learning ↗

432

143

37м 5с

2. Классические алгоритмы глубокого обучения с подкреплением

5 уроков

Закрытый

2.1 Алгоритм Deep Q-Network и его модификации ↗

321

77м 33с

Закрытый

2.2 On-policy RL: REINFORCE и Actor-Critic ↗

202

36м 38с

Закрытый

2.3 On-policy RL: TRPO и PPO ↗

184

50м 21с

Закрытый

2.4 Off-policy RL: DDPG, TD3 и SAC ↗

149

49м 24с

Закрытый

2.5 Распределенные алгоритмы RL ↗

143

40м 39с

3. Дополнительные главы

6 уроков

Закрытый

3.1 Model-based RL ↗

159

60м 52с

Закрытый

3.2 Эффективное исследование окружения ↗

133

64м 36с

Закрытый

3.3 Мультиагентный RL, Skill Learning и иерархический RL ↗

121

78м 5с

Закрытый

3.4 Multitask RL, Goal-based RL и Imitation Learning ↗

109

71м 47с

Закрытый

3.5 Offline RL. Применение RL в рекомендательных системах ↗

136

64м 50с

Закрытый

3.6 Кейсы применения RL в различных задачах ↗

165

22м 26с