Чему вы научитесь
- Поднимать локальный кластер: Spark Master + N Worker’s + Postgres + JupyterLab + Airflow в Docker
- Разворачивать docker-стенд по docker compose up, понимать, что за что отвечает
- Организовывать RAW-слой с разложением файлов по ingest_date=YYYY-MM-DD
- Грузить данные RAW → STG идемпотентно по паттерну «replace по ingest_date»
- Проектировать CORE-модель: факты, измерения, event-даты, инкременты
- Строить сквозной ETL от файлов до витрины: RAW → STG → CORE → MARTS
- Писать базовые Spark-трансформации и агрегаты для подготовки слоёв
- Собирать DAG’и в Airflow для пайплайна raw→stg→core→marts
- Настраивать расписания, зависимости и ретраи для задач
- Собирать простую витрину и дашборд в BI-инструменте
- Работать с Git и приватным GitHub-репозиторием как в реальной команде
- Упаковывать результат в портфолио и уверенно рассказывать про свой ETL-пайплайн на собеседовании
О курсе
Для кого этот курс
Начальные требования
уверенная база по SQL: SELECT, JOIN, GROUP BY, базовые агрегаты
понимание, что такое факт/измерение и слой данных (raw / stg / core) на уровне идей
минимальный опыт работы с Python или готовность не бояться простых скриптов в Jupyter
готовность поставить Docker (инструкции дам) и немного покопаться в настройках ОС
желание разбираться в логике и архитектуре, а не просто «запустить ноутбук и забыть»
Преподаватели курса
Как проходит обучение
вы заполняете анкету и пишете мне в Telegram — проверяем уровень и железо
после одобрения и старта потока вы получаете доступ к приватному GitHub-репозиторию и инструкции по запуску стенда
поднимаете Docker-окружение у себя на машине и проверяете сервисы по чек-листу
проходите модули последовательно: читаете текстовый урок-README → выполняете шаги в SQL / PySpark / Docker → фиксируете результат в репозитории
задаёте вопросы в чате: Docker, Spark, Postgres, Airflow, SQL, архитектура — я помогаю с падениями контейнеров и ошибками в коде
двигаетесь в своём темпе, с ориентиром 4–5 часов в неделю; сопровождение — в течение первых месяцев, доступ к репозиторию остаётся.
Что вы получите
- живой кейс для портфолио: мини-кластер + DWH + витрина + дашборд
- навык поднятия локального стенда (Spark, Postgres, Jupyter в Docker) без «магии админов»
- сквозной ETL-пайплайн RAW → STG → CORE → MARTS на реальном датасете
- опыт работы с Git и приватным репозиторием, близкий к продовой разработке
- понимание, как говорить на собесе про свой ETL, DAG’и, витрины и SLA пайплайнов
- поддержку автора на первых шагах: разбор логов, ошибок, архитектурных решений
- доступ к материалам и репозиторию, чтобы возвращаться к ним, когда будете строить свой следующий пайплайн уже на работе