Содержание курса
1. Введение
4 урока
4
2
3м
0
Закрытый
1.1
Добро пожаловать
↗
1
0
2м 1с
0
Закрытый
1.2
Важно перед стартом
↗
1
0
1м 55с
0
Закрытый
1.3
Справка: Docker Desktop для Windows
↗
1
1
-
0
Закрытый
1.4
Справка: Docker Desktop для Windows
↗
1
1
-
0
2. Модуль 0. Окружение: Docker-стенд, репозиторий, первый запуск
5 уроков
5
0
13м
0
Закрытый
2.1
Как проходить практикум через Stepik + Git
↗
1
0
1м 46с
0
Закрытый
2.2
Как устроен практикум и stand-репозиторий
↗
1
0
2м 29с
0
Закрытый
2.3
Установка инструментов
↗
1
0
1м 0с
0
Закрытый
2.4
Репозиторий и правила работы с файлами
↗
1
0
8м 7с
0
Закрытый
2.5
Первый запуск стенда и проверка сервисов
↗
1
0
1м 57с
0
3. Модуль 1. RAW → STG: загрузка датасетов, идемпотентность
7 уроков
8
0
55м
0
Закрытый
3.1
Что вы построите в этом модуле
↗
1
0
-
0
Закрытый
3.2
Как устроено хранилище данных...
↗
1
0
-
0
Закрытый
3.3
RAW и ingest_date
↗
1
0
55м 51с
0
Закрытый
3.4
Первая загрузка orders в STG
↗
1
0
-
0
Закрытый
3.5
order_items и проверки связности
↗
1
0
-
0
Закрытый
3.6
Остальные таблицы и проверка идемпотентности
↗
1
0
-
0
Закрытый
3.7
Рецензируемая сдача модуля 1
↗
2
0
-
0
4. Модуль 2. CORE: факты/измерения, event-даты, инкременты
6 уроков
5
0
0м
0
Закрытый
4.1
Зачем нужен CORE: факт, измерения, grain и звезда
↗
1
0
-
0
Закрытый
4.2
Первые измерения CORE и полный загрузочный прогон (SCD1)
↗
1
0
-
0
Закрытый
4.3
CORE-измерения SCD1: dim_product и dim_seller
↗
1
0
-
0
Закрытый
4.4
core.dim_customer как SCD2: история, версии и инкремент
↗
1
0
-
0
Закрытый
4.5
core.fct_order_items: grain, batch rebuild и связи с измерениями
↗
0
0
-
0
Закрытый
4.6
Рецензируемая сдача модуля 2
↗
1
0
-
0
5. Модуль 3. Основы Spark
7 уроков
5
0
0м
0
Закрытый
5.1
Инженерия данных и место Spark в вашем учебном пайплайне
↗
1
0
-
0
Закрытый
5.2
Spark с нуля: DataFrame и инженерный цикл
↗
1
0
-
0
Закрытый
5.3
Базовые трансформации в Spark: DataFrame API, Spark SQL
↗
1
0
-
0
Закрытый
5.4
Фильтрация, даты и агрегации в Spark
↗
0
0
-
0
Закрытый
5.5
Соединение нескольких таблиц в Spark: grain, счётчики и join;s
↗
0
0
-
0
Закрытый
5.6
Parquet, partitionBy, coalesce и repartition
↗
2
0
-
0
Закрытый
5.7
Рецензируемая сдача модуля 3
↗
0
0
-
0
6. Витрины: денормализация, партиционирование
7 уроков
2
1
0м
0
Закрытый
6.1
Витрины: контракт, grain и первый реестр MARTS
↗
0
0
-
0
Закрытый
6.2
Wide-витрина: денормализация факта без агрегации
↗
0
0
-
0
Закрытый
6.3
Агрегатная витрина sales_daily: дневные продажи и reconcile
↗
1
0
-
0
Закрытый
6.4
Топ продавцов помесячно
↗
0
0
-
0
Закрытый
6.5
Партиционирование витрин: Postgres и S3/Parquet
↗
0
0
-
0
Закрытый
6.6
Инкрементальная пересборка витрины (Postgres + Spark/S3)
↗
0
0
-
0
Закрытый
6.7
Рецензируемая сдача модуля 4
↗
1
1
-
0
7. Качество и SLA: дубликаты, пропуски, аномалии
5 уроков
2
0
0м
0
Закрытый
7.1
Журнал проверок DQ
↗
1
0
-
0
Закрытый
7.2
STG sanity-checks
↗
1
0
-
0
Закрытый
7.3
CORE sanity-checks
↗
0
0
-
0
Закрытый
7.4
MARTS sanity-checks
↗
0
0
-
0
Закрытый
7.5
Рецензируемая сдача модуля 5
↗
0
0
-
0
8. Spark Batch: трансформации, партиционирование, оптимизация
5 уроков
0
0
0м
0
Закрытый
8.1
Каркас джобы, параметры и идемпотентная запись
↗
0
0
-
0
Закрытый
8.2
Wide to Parquet: контракт, grain и идемпотентная запись
↗
0
0
-
0
Закрытый
8.3
Partition pruning и small files на Parquet в MinIO (S3A)
↗
0
0
-
0
Закрытый
8.4
Join и агрегаты: row explosion, broadcast и skew
↗
0
0
-
0
Закрытый
8.5
Производительность: explain, cache/persist, shuffle partitions
↗
0
0
-
0
9. Оркестрация в Airflow
9 уроков
0
0
0м
0
Закрытый
9.1
Первый запуск DAG и Connection к Postgres
↗
0
0
-
0
Закрытый
9.2
PostgresOperator и современный аналог SQLExecuteQueryOperator
↗
0
0
-
0
Закрытый
9.3
PythonOperator: DQ-чек, PostgresHook и XCom
↗
0
0
-
0
Закрытый
9.4
BashOperator: команды, внешние скрипты и поведение при ошибках
↗
0
0
-
0
Закрытый
9.5
Единый DAG: SQL + Python + Bash + параметры запуска
↗
0
0
-
0
Закрытый
9.6
Проектная оркестрация RAW → STG через SQL-файлы (ingest_date)
↗
0
0
-
0
Закрытый
9.7
Проектная оркестрация STG → CORE через SQL-файлы (ingest_date)
↗
0
0
-
0
Закрытый
9.8
Проектная оркестрация CORE → MARTS через SQL-файлы (ingest_date)
↗
0
0
-
0
Закрытый
9.9
Вариативность пайплайна: параллельные слои, Spark jobs
↗
0
0
-
0
10. BI в Metabase
1 урок
0
0
0м
0
Закрытый
10.1
В разработке
↗
0
0
-
0