Курс на Stepik
Обложка курса «DE-практикум: Spark, Docker, Postgres, Airflow, S3. Поток 4.» на Stepik
35 000 ₽

DE-практикум: Spark, Docker, Postgres, Airflow, S3. Поток 4. 0.000

Открыть на
STEPIK.ORG

Живой DE-практикум для тех, у кого уже есть рабочий SQL и кто хочет руками пройти путь от локального стенда до DWH, ETL, Spark, Airflow и BI. Поднимаете mini-кластер на ноутбуке, собираете сквозной пайплайн и получаете цельный проект для портфолио и собеседований.

Показатель Текущие показатели Рост
Значение 🏆 Рейтинг 3 дн 7 дн 30 дн
Количество учеников на курсе «DE-практикум: Spark, Docker, Postgres, Airflow, S3. Поток 4.»Учеников на курсе 10
Сертификаты, выданные на курсе «DE-практикум: Spark, Docker, Postgres, Airflow, S3. Поток 4.»Сертификатов выдано 0
Отзывы о курсе «DE-практикум: Spark, Docker, Postgres, Airflow, S3. Поток 4.»Отзывов получено 0
Рейтинг курса «DE-практикум: Spark, Docker, Postgres, Airflow, S3. Поток 4.»Рейтинг курса 0.000
Уроки в курсе «DE-практикум: Spark, Docker, Postgres, Airflow, S3. Поток 4.»Количество уроков 65
Тесты в курсе «DE-практикум: Spark, Docker, Postgres, Airflow, S3. Поток 4.»Количество квизов 355
Задачи с кодом в курсе «DE-практикум: Spark, Docker, Postgres, Airflow, S3. Поток 4.»Количество задач с кодом 26
Время прохождения курса «DE-практикум: Spark, Docker, Postgres, Airflow, S3. Поток 4.»Время прохождения курса
Стоимость курса «DE-практикум: Spark, Docker, Postgres, Airflow, S3. Поток 4.»Стоимость курса 35 000 ₽
Обновления курса «DE-практикум: Spark, Docker, Postgres, Airflow, S3. Поток 4.»Обновления курса
Дата публикации курса «DE-практикум: Spark, Docker, Postgres, Airflow, S3. Поток 4.»Дата публикации курса
Последнее обновление курса «DE-практикум: Spark, Docker, Postgres, Airflow, S3. Поток 4.»Последнее обновление
Сложность normal

Содержание курса

Разделы в курсе «DE-практикум: Spark, Docker, Postgres, Airflow, S3. Поток 4.» 10 разделов Уроки в курсе «DE-практикум: Spark, Docker, Postgres, Airflow, S3. Поток 4.» 65 уроков Тесты в курсе «DE-практикум: Spark, Docker, Postgres, Airflow, S3. Поток 4.» 355 тестов Задачи в курсе «DE-практикум: Spark, Docker, Postgres, Airflow, S3. Поток 4.» 26 задач Время прохождения курса «DE-практикум: Spark, Docker, Postgres, Airflow, S3. Поток 4.» 1 ч. Последнее обновление курса «DE-практикум: Spark, Docker, Postgres, Airflow, S3. Поток 4.» обн. 26 июня 2026

1. Введение

2 урока
Закрытый
1.1 Добро пожаловать
0
0
2м 1с
0
Закрытый
1.2 Важно перед стартом
0
0
1м 55с
0

2. Окружение: Docker-стенд, репозиторий, первый запуск

7 уроков
Закрытый
2.1 Как проходить практикум через Stepik + Git
0
0
-
0
Закрытый
2.2 Как устроен практикум и stand-репозиторий
0
0
2м 29с
0
Закрытый
2.3 Установка инструментов
0
0
1м 0с
0
Закрытый
2.4 Репозиторий и правила работы с файлами
0
0
8м 7с
0
Закрытый
2.5 Первый запуск стенда и проверка сервисов
0
0
1м 57с
0
Закрытый
2.6 Справка: Docker Desktop для Windows
1
0
-
0
Закрытый
2.7 Справка: GitHub, доступ и clone репозитория
1
0
-
0

3. RAW → STG: загрузка датасетов, идемпотентность

7 уроков
Закрытый
3.1 Что вы построите в этом модуле
1
0
-
0
Закрытый
3.2 Как устроено хранилище данных...
1
0
-
0
Закрытый
3.3 RAW и ingest_date
0
0
55м 51с
0
Закрытый
3.4 Первая загрузка orders в STG
1
0
-
0
Закрытый
3.5 order_items и проверки связности
0
0
-
0
Закрытый
3.6 Остальные таблицы и проверка идемпотентности
0
0
-
0
Закрытый
3.7 Рецензируемая сдача модуля 3
0
0
-
0

4. CORE: факты/измерения, event-даты, инкременты

6 уроков
Закрытый
4.1 Зачем нужен CORE: факт, измерения, grain и звезда
0
0
-
0
Закрытый
4.2 Первые измерения CORE и полный загрузочный прогон (SCD1)
0
0
-
0
Закрытый
4.3 CORE-измерения SCD1: dim_product и dim_seller
0
0
-
0
Закрытый
4.4 core.dim_customer как SCD2: история, версии и инкремент
0
0
-
0
Закрытый
4.5 core.fct_order_items: grain, batch rebuild и связи с измерениями
0
0
-
0
Закрытый
4.6 Рецензируемая сдача модуля 4
1
0
-
0

5. Основы Spark

7 уроков
Закрытый
5.1 Инженерия данных и место Spark в вашем учебном пайплайне
0
0
-
0
Закрытый
5.2 Spark с нуля: DataFrame и инженерный цикл
1
0
-
0
Закрытый
5.3 Базовые трансформации в Spark: DataFrame API, Spark SQL
1
0
-
0
Закрытый
5.4 Фильтрация, даты и агрегации в Spark
1
0
-
0
Закрытый
5.5 Соединение нескольких таблиц в Spark: grain, счётчики и join;s
1
0
-
0
Закрытый
5.6 Parquet, partitionBy, coalesce и repartition
1
0
-
0
Закрытый
5.7 Рецензируемая сдача модуля 5
1
0
-
0

6. Витрины: денормализация, партиционирование

7 уроков
Закрытый
6.1 Витрины: контракт, grain и первый реестр MARTS
0
0
-
0
Закрытый
6.2 Wide-витрина: денормализация факта без агрегации
1
0
-
0
Закрытый
6.3 Агрегатная витрина sales_daily: дневные продажи и reconcile
1
0
-
0
Закрытый
6.4 Топ продавцов помесячно
1
0
-
0
Закрытый
6.5 Партиционирование витрин: Postgres и S3/Parquet
1
0
-
0
Закрытый
6.6 Инкрементальная пересборка витрины (Postgres + Spark/S3)
0
0
-
0
Закрытый
6.7 Рецензируемая сдача модуля 6
0
0
-
0

7. Качество и SLA: дубликаты, пропуски, аномалии

5 уроков
Закрытый
7.1 Журнал проверок DQ
1
0
-
0
Закрытый
7.2 STG sanity-checks
0
0
-
0
Закрытый
7.3 CORE sanity-checks
0
0
-
0
Закрытый
7.4 MARTS sanity-checks
0
0
-
0
Закрытый
7.5 Рецензируемая сдача модуля 7
0
0
-
0

8. Spark Batch: трансформации, партиционирование, оптимизация

6 уроков
Закрытый
8.1 Каркас джобы, параметры и идемпотентная запись
0
0
-
0
Закрытый
8.2 Wide to Parquet: контракт, grain и идемпотентная запись
0
0
-
0
Закрытый
8.3 Partition pruning и small files на Parquet в MinIO (S3A)
0
0
-
0
Закрытый
8.4 Join и агрегаты: row explosion, broadcast и skew
0
0
-
0
Закрытый
8.5 Производительность: explain, cache/persist, shuffle partitions
0
0
-
0
Закрытый
8.6 Рецензируемая сдача модуля 8
0
0
-
0

9. Оркестрация в Airflow

11 уроков
Закрытый
9.1 Первый запуск DAG и Connection к Postgres
0
0
-
0
Закрытый
9.2 SQLExecuteQueryOperator: первый SQL-DAG
0
0
-
0
Закрытый
9.3 PythonOperator: DQ-check, PostgresHook и XCom
0
0
-
0
Закрытый
9.4 BashOperator: скрипты, exit code и ошибки
0
0
-
0
Закрытый
9.5 Единый DAG: SQL, Python, Bash и параметры
0
0
-
0
Закрытый
9.6 Source → RAW: первый ingestion DAG
0
0
-
0
Закрытый
9.7 RAW → STG: запуск project SQL по ingest_date
0
0
-
0
Закрытый
9.8 STG → CORE: зависимости, SCD и strict checks
0
0
-
0
Закрытый
9.9 CORE → MARTS: витрины, порядок и проверки
0
0
-
0
Закрытый
9.10 Варианты пайплайна: параллельные ветки и Spark jobs
0
0
-
0
Закрытый
9.11 Рецензируемая сдача модуля 9
0
0
-
0

10. BI в Metabase

7 уроков
Закрытый
10.1 Первый вход в Metabase и место BI в проекте
1
1
-
0
Закрытый
10.2 BI contract views и readonly-подключение
1
1
-
0
Закрытый
10.3 Sales Overview: дашборд по daily-витрине
0
0
-
0
Закрытый
10.4 Wide Mart Explorer: детализация заказов и drill-down
0
0
-
0
Закрытый
10.5 Сигналы качества в BI: freshness, smoke и reconcile
0
0
-
0
Закрытый
10.6 BI governance: naming, права и правила эксплуатации
0
0
-
0
Закрытый
10.7 Рецензируемая сдача модуля 10
1
1
-
0