Курс на Stepik
Обложка курса «DE-практикум: Spark, Docker, Postgres, Airflow, S3. Поток 3» на Stepik
35 000 ₽

DE-практикум: Spark, Docker, Postgres, Airflow, S3. Поток 3 0.000

Открыть на
STEPIK.ORG

Живой практикум по Data Engineering: поднимаем локальный кластер (Spark + Postgres + Jupyter + Airflow), строим слои RAW/STG/CORE на реальном датасете и разбираем паттерны middle-уровня. Формат потока: небольшая группа, плотная поддержка и доработка курса по вашей обратной связи.

Показатель Текущие показатели Рост
Значение 🏆 Рейтинг 3 дн 7 дн 30 дн
Количество учеников на курсе «DE-практикум: Spark, Docker, Postgres, Airflow, S3. Поток 3»Учеников на курсе 10
Сертификаты, выданные на курсе «DE-практикум: Spark, Docker, Postgres, Airflow, S3. Поток 3»Сертификатов выдано 0
Отзывы о курсе «DE-практикум: Spark, Docker, Postgres, Airflow, S3. Поток 3»Отзывов получено 0
Рейтинг курса «DE-практикум: Spark, Docker, Postgres, Airflow, S3. Поток 3»Рейтинг курса 0.000
Уроки в курсе «DE-практикум: Spark, Docker, Postgres, Airflow, S3. Поток 3»Количество уроков 65
Тесты в курсе «DE-практикум: Spark, Docker, Postgres, Airflow, S3. Поток 3»Количество квизов 416
Задачи с кодом в курсе «DE-практикум: Spark, Docker, Postgres, Airflow, S3. Поток 3»Количество задач с кодом 31
Время прохождения курса «DE-практикум: Spark, Docker, Postgres, Airflow, S3. Поток 3»Время прохождения курса
Стоимость курса «DE-практикум: Spark, Docker, Postgres, Airflow, S3. Поток 3»Стоимость курса 35 000 ₽
Обновления курса «DE-практикум: Spark, Docker, Postgres, Airflow, S3. Поток 3»Обновления курса
Дата публикации курса «DE-практикум: Spark, Docker, Postgres, Airflow, S3. Поток 3»Дата публикации курса
Последнее обновление курса «DE-практикум: Spark, Docker, Postgres, Airflow, S3. Поток 3»Последнее обновление
Сложность normal

Содержание курса

Разделы в курсе «DE-практикум: Spark, Docker, Postgres, Airflow, S3. Поток 3» 10 разделов Уроки в курсе «DE-практикум: Spark, Docker, Postgres, Airflow, S3. Поток 3» 65 уроков Тесты в курсе «DE-практикум: Spark, Docker, Postgres, Airflow, S3. Поток 3» 416 тестов Задачи в курсе «DE-практикум: Spark, Docker, Postgres, Airflow, S3. Поток 3» 31 задача Время прохождения курса «DE-практикум: Spark, Docker, Postgres, Airflow, S3. Поток 3» 1 ч. Последнее обновление курса «DE-практикум: Spark, Docker, Postgres, Airflow, S3. Поток 3» обн. 20 мая 2026

1. Введение

4 урока
Закрытый
1.1 Добро пожаловать
1
0
2м 1с
0
Закрытый
1.2 Важно перед стартом
1
0
1м 55с
0
Закрытый
1.3 Справка: Docker Desktop для Windows
1
1
-
0
Закрытый
1.4 Справка: Docker Desktop для Windows
1
1
-
0

2. Модуль 0. Окружение: Docker-стенд, репозиторий, первый запуск

5 уроков
Закрытый
2.1 Как проходить практикум через Stepik + Git
1
0
1м 46с
0
Закрытый
2.2 Как устроен практикум и stand-репозиторий
1
0
2м 29с
0
Закрытый
2.3 Установка инструментов
1
0
1м 0с
0
Закрытый
2.4 Репозиторий и правила работы с файлами
1
0
8м 7с
0
Закрытый
2.5 Первый запуск стенда и проверка сервисов
1
0
1м 57с
0

3. Модуль 1. RAW → STG: загрузка датасетов, идемпотентность

7 уроков
Закрытый
3.1 Что вы построите в этом модуле
1
0
-
0
Закрытый
3.2 Как устроено хранилище данных...
1
0
-
0
Закрытый
3.3 RAW и ingest_date
1
0
55м 51с
0
Закрытый
3.4 Первая загрузка orders в STG
1
0
-
0
Закрытый
3.5 order_items и проверки связности
1
0
-
0
Закрытый
3.6 Остальные таблицы и проверка идемпотентности
1
0
-
0
Закрытый
3.7 Рецензируемая сдача модуля 1
2
0
-
0

4. Модуль 2. CORE: факты/измерения, event-даты, инкременты

6 уроков
Закрытый
4.1 Зачем нужен CORE: факт, измерения, grain и звезда
1
0
-
0
Закрытый
4.2 Первые измерения CORE и полный загрузочный прогон (SCD1)
1
0
-
0
Закрытый
4.3 CORE-измерения SCD1: dim_product и dim_seller
1
0
-
0
Закрытый
4.4 core.dim_customer как SCD2: история, версии и инкремент
1
0
-
0
Закрытый
4.5 core.fct_order_items: grain, batch rebuild и связи с измерениями
0
0
-
0
Закрытый
4.6 Рецензируемая сдача модуля 2
1
0
-
0

5. Модуль 3. Основы Spark

7 уроков
Закрытый
5.1 Инженерия данных и место Spark в вашем учебном пайплайне
1
0
-
0
Закрытый
5.2 Spark с нуля: DataFrame и инженерный цикл
1
0
-
0
Закрытый
5.3 Базовые трансформации в Spark: DataFrame API, Spark SQL
1
0
-
0
Закрытый
5.4 Фильтрация, даты и агрегации в Spark
0
0
-
0
Закрытый
5.5 Соединение нескольких таблиц в Spark: grain, счётчики и join;s
0
0
-
0
Закрытый
5.6 Parquet, partitionBy, coalesce и repartition
2
0
-
0
Закрытый
5.7 Рецензируемая сдача модуля 3
0
0
-
0

6. Витрины: денормализация, партиционирование

7 уроков
Закрытый
6.1 Витрины: контракт, grain и первый реестр MARTS
0
0
-
0
Закрытый
6.2 Wide-витрина: денормализация факта без агрегации
0
0
-
0
Закрытый
6.3 Агрегатная витрина sales_daily: дневные продажи и reconcile
1
0
-
0
Закрытый
6.4 Топ продавцов помесячно
0
0
-
0
Закрытый
6.5 Партиционирование витрин: Postgres и S3/Parquet
0
0
-
0
Закрытый
6.6 Инкрементальная пересборка витрины (Postgres + Spark/S3)
0
0
-
0
Закрытый
6.7 Рецензируемая сдача модуля 4
1
1
-
0

7. Качество и SLA: дубликаты, пропуски, аномалии

5 уроков
Закрытый
7.1 Журнал проверок DQ
1
0
-
0
Закрытый
7.2 STG sanity-checks
1
0
-
0
Закрытый
7.3 CORE sanity-checks
0
0
-
0
Закрытый
7.4 MARTS sanity-checks
0
0
-
0
Закрытый
7.5 Рецензируемая сдача модуля 5
0
0
-
0

8. Spark Batch: трансформации, партиционирование, оптимизация

5 уроков
Закрытый
8.1 Каркас джобы, параметры и идемпотентная запись
0
0
-
0
Закрытый
8.2 Wide to Parquet: контракт, grain и идемпотентная запись
0
0
-
0
Закрытый
8.3 Partition pruning и small files на Parquet в MinIO (S3A)
0
0
-
0
Закрытый
8.4 Join и агрегаты: row explosion, broadcast и skew
0
0
-
0
Закрытый
8.5 Производительность: explain, cache/persist, shuffle partitions
0
0
-
0

9. Оркестрация в Airflow

9 уроков
Закрытый
9.1 Первый запуск DAG и Connection к Postgres
0
0
-
0
Закрытый
9.2 PostgresOperator и современный аналог SQLExecuteQueryOperator
0
0
-
0
Закрытый
9.3 PythonOperator: DQ-чек, PostgresHook и XCom
0
0
-
0
Закрытый
9.4 BashOperator: команды, внешние скрипты и поведение при ошибках
0
0
-
0
Закрытый
9.5 Единый DAG: SQL + Python + Bash + параметры запуска
0
0
-
0
Закрытый
9.6 Проектная оркестрация RAW → STG через SQL-файлы (ingest_date)
0
0
-
0
Закрытый
9.7 Проектная оркестрация STG → CORE через SQL-файлы (ingest_date)
0
0
-
0
Закрытый
9.8 Проектная оркестрация CORE → MARTS через SQL-файлы (ingest_date)
0
0
-
0
Закрытый
9.9 Вариативность пайплайна: параллельные слои, Spark jobs
0
0
-
0

10. BI в Metabase

1 урок
Закрытый
10.1 В разработке
0
0
-
0