Чему вы научитесь
- Проектировать конвейер данных Kafka → Spark → Lakehouse под управлением Airflow.
- Поднимать локальное окружение через Docker Compose и воспроизводимо деплоить пайплайны.
- Делать batch и streaming в Spark, настраивать окна и watermark.
- Читать/писать данные в Parquet и табличные форматы Delta/Iceberg, избегать «small files».
- Настраивать DAG: расписания, retries, SLA, catchup, datasets.
- Подключать источники/приёмники через Kafka Connect/Schema Registry, понимать EOS/idempotency.
- Писать базовые тесты качества данных (freshness/completeness) и алерты по свежести.
- Выполнять backfill и разруливать инциденты (сломалась схема, отставание потребителей).
О курсе
Практический fast-track по data engineering: за 4–6 недель собираем рабочий конвейер Kafka → Spark → Lakehouse под управлением Airflow. Разберём batch и streaming, окна и watermark, схемы и контракты. Мини‑проекты, Docker Compose, шаблоны DAG и пайплайнов.
Курс подойдёт инженерам, аналитикам и тем, кто хочет освоить современные пайплайны данных с уверенным Python.
Для кого этот курс
Специалисты, стремящиеся перейти в Data Engineering через практику: backend-разработчики, аналитики, DevOps, BI.
ML/DS-инженеры, которым важно надёжно поставлять и перерабатывать данные в проде.
Тимлиды и архитекторы, проектирующие пайплайны данных, стриминг и Lakehouse.
Мотивированные обучающиеся с опытом Python и интересом к построению дата-инфраструктуры.
Начальные требования
Базовые навыки Python 3, умение читать SQL.
Опыт работы с Git/Bash и базовое понимание Docker.
Знание сетей/БД на уровне «что такое порт, таблица, индекс» — приветствуется, но не обязательно.
Преподаватели курса
Как проходит обучение
Все шаги — в браузере
На каждой теме — мини-практика + проверка.
Запускаете код из уроков локально
Поддержка в комментариях курса.
Сертификат
Успешно завершив курс, вы получите сертификат от платформы Stepik. Уже 8 учеников получили сертификат.
Что вы получите
- Рабочий конвейер Kafka → Spark → Lakehouse под управлением Airflow, который разворачивается из Docker Compose
- Репозиторий курса: docker-compose, примеры кода, готовые DAG, конфиги Kafka/Schema Registry/Kafka Connect
- Мини-проект в портфолио: поток из Kafka в Delta/Iceberg + batch-пересчёт (backfill) + SLA/алерты
- Чек-листы продакшена: ключи/партиции, окна и watermark, small files/компакции, мониторинг lag и задержек
- Шаблоны: Airflow-DAG для ETL/ELT, Spark-jobs (batch/stream), базовые проверки качества данных (freshness/completeness)
- Шпаргалки и схемы по Kafka, Airflow, Spark и табличным форматам (Delta/Iceberg)
- Задачи и самопроверки двух уровней сложности (Starter/Pro)
- Подготовительный мини-модуль для самоучек: краткий recap Python/SQL/Git/Bash/Docker (4–6 часов)
- Пошаговые инструкции с разбором типичных ошибок и анти-паттернов
- Оперативные ответы в комментариях к курсу
- Сертификат по завершении