Чему вы научитесь
- Разворачивать локальный стенд Lakehouse. Запускать готовое окружение (mydatalab) с помощью Docker Compose, чтобы экспериментировать с технологиями без облачных затрат.
- Настраивать Spark-сессию для работы с Iceberg. Писать код на PySpark, который подключается к REST Catalog (Lakekeeper) и S3-совместимому хранилищу (MinIO), используя правильные конфигурационные свойства (spark.sql.extensions, spark.sql.catalog).
- Управлять пространствами имен (namespace). Создавать namespace через Spark SQL (CREATE NAMESPACE ...), чтобы логически группировать таблицы.
- Создавать таблицы в Spark. Создавать управляемые (managed) таблицы в формате Iceberg с определением колонок и типов данных.
- Записывать данные в Iceberg таблицы. Выполнять запись данных двумя основными способами:
- Используя DataFrame API (df.writeTo("...").append()).
- Используя Spark SQL (INSERT INTO ... VALUES ...).
О курсе
Для кого этот курс
Начальные требования
-
Опыт от 1 года в роли Data Engineer, Data Administrator или Data Architect.
-
Уверенный SQL: писать сложные запросы, понимать устройство таблиц и схем.
-
Базовый Python: читать и писать простой код, работать с данными.
-
Понимание основ DWH и ETL: знать, как устроены хранилища и процессы загрузки данных.
-
Навыки работы с терминалом: запускать команды, работать с Docker.
Важно: глубокие знания Spark, Iceberg и Lakehouse не требуются — мы всему научим на курсе.
Преподаватели курса
Как проходит обучение
Курс построен как сюжетный симулятор: вы — инженер данных Толик в продуктовой ИТ-команде, и каждый шаг — это новая вводная от руководителей (Енисея, Эдика, Ариелы) или правка от заказчика.
Теорию сразу закрепляете практикой: задания выполняются в облачной IDE прямо в браузере, с мгновенной автопроверкой — ничего устанавливать для заданий не нужно. Демо проходите бесплатно и в своем темпе.
Как выглядит обучение на практике:
-
Погружение в контекст. Вы читаете диалоги команды, понимаете бизнес-задачу и технические требования.
-
Теоретический блок. Изучаете документацию и отвечаете на вопросы, чтобы закрепить понимание архитектуры.
-
Практика в IDE. Переходите в JupyterLab (встроенный в браузер) и выполняете код: настраиваете Spark, создаете таблицы, пишете запросы.
-
Мгновенная проверка. Система автоматически проверяет ваше решение и показывает результат.
-
Следующая вводная. В зависимости от успеха, вы переходите к следующему шагу с новым заданием от команды.
Итог: вы не просто смотрите лекции, а проживаете реальный проект от старта до готового продукта — Lakehouse на стеке Apache Spark и Iceberg.
Что вы получите
- Практические навыки работы с современным стеком Big Data, востребованные работодателем (Apache Spark, Iceberg, S3).
- Возможность сразу отработать теорию на практике в реальной среде — вы не просто смотрите, а сами подключаете Spark к Iceberg и создаете таблицы.
- Доступ к готовому локальному стенду mydatalab — всё необходимое для работы уже развернуто в Docker.
- Понимание архитектуры Lakehouse и роли каждого компонента: MinIO (S3), Apache Iceberg, Lakekeeper и Spark.
- Навыки настройки Spark-сессии для работы с Iceberg через свойства spark.sql.extensions и spark.sql.catalog.
- Опыт работы с S3 — подключение к объектному хранилищу и создание namespace.
- Опыт работы с таблицами в Iceberg — создание таблицы с полем message типа STRING.
- Навыки записи данных двумя способами — через DataFrame API и через Spark SQL.
- Базовые навыки работы с Jupyter Notebook в облачной IDE.
- Бессрочный доступ к материалам демо-урока — можете возвращаться и пересматривать в любое время.
- Понимание формата обучения — вы оцениваете, подходит ли вам сюжетный симулятор, и принимаете взвешенное решение о покупке полной версии курса.