Чему вы научитесь
- Понимать философию SRE и её отличия от классического DevOps: error budgets, toil reduction, blameless culture.
- Определять и внедрять SLI, SLO и SLA для сервисов, измерять надёжность количественно.
- Строить observability-системы: метрики, логи, трейсы. Работать с Prometheus, Grafana, Alertmanager, Jaeger.
- Настраивать эффективный алертинг: избегать alert fatigue, строить runbooks и on-call ротации.
- Проводить incident management: классификация инцидентов, эскалация, координация во время аварий.
- Писать post-mortem без поиска виноватых: анализ root cause, action items, предотвращение повторений.
- Автоматизировать рутину (toil): скрипты самовосстановления, auto-scaling, self-healing инфраструктура.
- Проектировать отказоустойчивые архитектуры: redundancy, graceful degradation, circuit breakers, retry policies.
- Проводить capacity planning и load testing: прогнозирование нагрузки, стресс-тесты, бенчмарки.
- Работать с Kubernetes с точки зрения надёжности: health checks, resource limits, PDB, HPA.
- Внедрять chaos engineering: Chaos Monkey, Litmus, контролируемые эксперименты над продакшеном.
- Строить CI/CD с учётом надёжности: canary deployments, blue-green, feature flags, rollback-стратегии.
- Управлять техническим долгом и балансировать скорость разработки с надёжностью системы.
- Готовиться к собеседованиям на позиции SRE: системный дизайн, troubleshooting, поведенческие вопросы.
О курсе
Практический курс по Site Reliability Engineering. Пройдёте полный путь от настройки первых метрик до построения отказоустойчивых систем в продакшене. Освоите SLI/SLO/SLA, incident management, observability-стек (Prometheus, Grafana, ELK), научитесь проводить post-mortem и строить культуру надёжности в команде.
Для кого этот курс
Для DevOps-инженеров, которые хотят перейти в SRE и глубже погрузиться в надёжность систем.
Подойдёт системным администраторам, бэкенд-разработчикам и тимлидам, которые отвечают за стабильность продакшена и хотят выстроить процессы управления надёжностью системно.
Курс предполагает базовое понимание Linux — остальное разбирается по ходу практики.
Начальные требования
- Базовые знания Linux (командная строка, файловая система)
- Понимание принципов работы веб-приложений
- Знание языка Python
Преподаватели курса
Сертификат
Успешно завершив курс, вы получите сертификат от платформы Stepik. Уже 2 учеников получили сертификат.
Что вы получите
- Практический опыт работы с реальными SRE-инструментами
- Портфолио проектов для трудоустройства
- Готовые шаблоны и скрипты для повседневной работы
- Сертификат о прохождении курса
- Знания, которые сразу можно применять в работе
- Понимание процессов в крупных IT-компаниях