Курс на Stepik
Обложка курса «DE-практикум: Spark, Docker, Postgres, Airflow, S3. Поток 4.» на Stepik
35 000 ₽

DE-практикум: Spark, Docker, Postgres, Airflow, S3. Поток 4. 0.000

Открыть на
STEPIK.ORG

Живой практикум по Data Engineering: поднимаем локальный кластер (Spark + Postgres + Jupyter + Airflow), строим слои RAW/STG/CORE на реальном датасете и разбираем паттерны middle-уровня. Формат потока: небольшая группа, плотная поддержка и доработка курса по вашей обратной связи.

Показатель Текущие показатели Рост
Значение 🏆 Рейтинг 3 дн 7 дн 30 дн
Количество учеников на курсе «DE-практикум: Spark, Docker, Postgres, Airflow, S3. Поток 4.»Учеников на курсе 2
Сертификаты, выданные на курсе «DE-практикум: Spark, Docker, Postgres, Airflow, S3. Поток 4.»Сертификатов выдано 0
Отзывы о курсе «DE-практикум: Spark, Docker, Postgres, Airflow, S3. Поток 4.»Отзывов получено 0
Рейтинг курса «DE-практикум: Spark, Docker, Postgres, Airflow, S3. Поток 4.»Рейтинг курса 0.000
Уроки в курсе «DE-практикум: Spark, Docker, Postgres, Airflow, S3. Поток 4.»Количество уроков 65
Тесты в курсе «DE-практикум: Spark, Docker, Postgres, Airflow, S3. Поток 4.»Количество квизов 355
Задачи с кодом в курсе «DE-практикум: Spark, Docker, Postgres, Airflow, S3. Поток 4.»Количество задач с кодом 26
Время прохождения курса «DE-практикум: Spark, Docker, Postgres, Airflow, S3. Поток 4.»Время прохождения курса
Стоимость курса «DE-практикум: Spark, Docker, Postgres, Airflow, S3. Поток 4.»Стоимость курса 35 000 ₽
Обновления курса «DE-практикум: Spark, Docker, Postgres, Airflow, S3. Поток 4.»Обновления курса
Дата публикации курса «DE-практикум: Spark, Docker, Postgres, Airflow, S3. Поток 4.»Дата публикации курса
Последнее обновление курса «DE-практикум: Spark, Docker, Postgres, Airflow, S3. Поток 4.»Последнее обновление
Сложность normal

Чему вы научитесь

  • Поднимать локальный кластер: Spark Master + N Worker’s + Postgres + JupyterLab + Airflow в Docker
  • Разворачивать docker-стенд по docker compose up, понимать, что за что отвечает
  • Организовывать RAW-слой с разложением файлов по ingest_date=YYYY-MM-DD
  • Грузить данные RAW → STG идемпотентно по паттерну «replace по ingest_date»
  • Проектировать CORE-модель: факты, измерения, event-даты, инкременты
  • Строить сквозной ETL от файлов до витрины: RAW → STG → CORE → MARTS
  • Писать базовые Spark-трансформации и агрегаты для подготовки слоёв
  • Собирать DAG’и в Airflow для пайплайна raw→stg→core→marts
  • Настраивать расписания, зависимости и ретраи для задач
  • Собирать простую витрину и дашборд в BI-инструменте
  • Работать с Git и приватным GitHub-репозиторием как в реальной команде
  • Упаковывать результат в портфолио и уверенно рассказывать про свой ETL-пайплайн на собеседовании

О курсе

Живой практикум по Data Engineering: поднимаем локальный кластер (Spark + Postgres + Jupyter + Airflow), строим слои RAW/STG/CORE на реальном датасете и разбираем паттерны middle-уровня. Формат потока: небольшая группа, плотная поддержка и доработка курса по вашей обратной связи.

Для кого этот курс

джуны / сильные джун+ / начинающие мидлы в data, которые устали от «игрушечных» задач и хотят реальную практику аналитики, которые хотят перейти в Data Engineering через Spark и ETL действующие DE, которым не хватает именно практики со Spark и локальным стендом

Начальные требования

уверенная база по SQL: SELECT, JOIN, GROUP BY, базовые агрегаты
понимание, что такое факт/измерение и слой данных (raw / stg / core) на уровне идей
минимальный опыт работы с Python или готовность не бояться простых скриптов в Jupyter
готовность поставить Docker (инструкции дам) и немного покопаться в настройках ОС
желание разбираться в логике и архитектуре, а не просто «запустить ноутбук и забыть»

Преподаватели курса

Как проходит обучение

вы заполняете анкету и пишете мне в Telegram — проверяем уровень и железо
после одобрения и старта потока вы получаете доступ к приватному GitHub-репозиторию и инструкции по запуску стенда
поднимаете Docker-окружение у себя на машине и проверяете сервисы по чек-листу
проходите модули последовательно: читаете текстовый урок-README → выполняете шаги в SQL / PySpark / Docker → фиксируете результат в репозитории
задаёте вопросы в чате: Docker, Spark, Postgres, Airflow, SQL, архитектура — я помогаю с падениями контейнеров и ошибками в коде
двигаетесь в своём темпе, с ориентиром 4–5 часов в неделю; сопровождение — в течение первых месяцев, доступ к репозиторию остаётся.

Что вы получите

  • живой кейс для портфолио: мини-кластер + DWH + витрина + дашборд
  • навык поднятия локального стенда (Spark, Postgres, Jupyter в Docker) без «магии админов»
  • сквозной ETL-пайплайн RAW → STG → CORE → MARTS на реальном датасете
  • опыт работы с Git и приватным репозиторием, близкий к продовой разработке
  • понимание, как говорить на собесе про свой ETL, DAG’и, витрины и SLA пайплайнов
  • поддержку автора на первых шагах: разбор логов, ошибок, архитектурных решений
  • доступ к материалам и репозиторию, чтобы возвращаться к ним, когда будете строить свой следующий пайплайн уже на работе

Нагрузка

5

Расскажите о курсе друзьям