Курс на Stepik
Обложка курса «Apache Iceberg для Data Engineer» на Stepik
4 980 ₽

Apache Iceberg для Data Engineer 4.500

Открыть на
STEPIK.ORG

Данный курс — погружение в технологию, которая изменила правила игры в мире Big Data. Если раньше работа с данными в Data Lake напоминала хаос из тысяч файлов и непредсказуемых схем, то с Iceberg мы строим полноценное хранилище с надежностью классических баз данных прямо поверх вашего S3 или HDFS. Забудьте про битые файлы в S3 и медленные запросы в Hive. Пришло время строить архитектуру Lakehouse, которая сочетает в себе гибкость Data Lake и мощь классических SQL-баз.

Показатель Текущие показатели Рост
Значение 🏆 Рейтинг 3 дн 7 дн 30 дн
Количество учеников на курсе «Apache Iceberg для Data Engineer»Учеников на курсе 37
Сертификаты, выданные на курсе «Apache Iceberg для Data Engineer»Сертификатов выдано 7
Отзывы о курсе «Apache Iceberg для Data Engineer»Отзывов получено 2
Рейтинг курса «Apache Iceberg для Data Engineer»Рейтинг курса 4.500
Уроки в курсе «Apache Iceberg для Data Engineer»Количество уроков 16
Тесты в курсе «Apache Iceberg для Data Engineer»Количество квизов 49
Время прохождения курса «Apache Iceberg для Data Engineer»Время прохождения курса
Стоимость курса «Apache Iceberg для Data Engineer»Стоимость курса 4 980 ₽
Обновления курса «Apache Iceberg для Data Engineer»Обновления курса
Дата публикации курса «Apache Iceberg для Data Engineer»Дата публикации курса
Последнее обновление курса «Apache Iceberg для Data Engineer»Последнее обновление
Сложность normal

Чему вы научитесь

  • Развертывать и настраивать среду: Вы научитесь поднимать инфраструктуру для работы с Iceberg, настраивать каталоги и интегрировать их с вычислительными движками.
  • Проектировать архитектуру таблиц: Вы поймете внутреннее устройство формата (Metadata, Snapshots, Manifests) и сможете объяснять, как Iceberg обеспечивает атомарность и изоляцию транзакций.
  • Управлять транзакциями и версиями: Вы научитесь использовать Time Travel для запросов к историческим данным и выполнять Rollback, чтобы мгновенно восстанавливать таблицы после ошибок в коде.
  • Эволюционировать схемы без боли: Вы освоите Schema Evolution (добавление/удаление колонок по ID) и Partition Evolution, научившись менять логику партиционирования данных без полной перезаписи таблиц.
  • Применять стратегии обновления данных: Вы разберетесь в разнице между Copy-on-Write и Merge-on-Read и сможете выбирать оптимальный режим под конкретные бизнес-задачи.
  • Работать с данными как с кодом (Branching): Вы освоите продвинутую модель веток (Branching & Tagging), научитесь реализовывать паттерн WAP (Write-Audit-Publish) для проверки качества данных перед их публикацией в продакшен.
  • Снижать стоимость хранения: Вы научитесь управлять жизненным циклом данных, настраивать очистку старых снимков и манифестов, оптимизируя расходы на облачное хранилище (S3/GCS).

О курсе

Данный курс — погружение в технологию, которая изменила правила игры в мире Big Data. Если раньше работа с данными в Data Lake напоминала хаос из тысяч файлов и непредсказуемых схем, то с Iceberg мы строим полноценное хранилище с надежностью классических баз данных прямо поверх вашего S3 или HDFS. Забудьте про битые файлы в S3 и медленные запросы в Hive. Пришло время строить архитектуру Lakehouse, которая сочетает в себе гибкость Data Lake и мощь классических SQL-баз.

Для кого этот курс

Этот курс идеально подойдет специалистам, которые устали от ограничений классического Hive-подхода и готовы перевести свои данные на новый уровень управления. Несмотря на то, что в курсе практика ведется на Apache Spark, я намеренно использовал преимущественно SQL синтаксис, чтобы курс был понятен как Data engineer, так и Data аналитикам.

Начальные требования

Что нужно знать и иметь перед стартом:

  • SQL (базовый/средний уровень): свободное владение SELECT, JOIN, GROUP BY и понимание DDL-операций.

  • Основы Spark или Python: умение прочитать данные и запустить простой скрипт/нотбук.

  • Базовое понимание Data Lake: если вы знаете, чем папка в S3/HDFS отличается от таблицы в базе данных, вам будет проще.

  • Docker: умение запустить контейнер через docker-compose.

Преподаватели курса

Как проходит обучение

Курс разбит на несколько тематических глав, каждая из которых построена по принципу «от боли к решению»:

  1. Разбор проблемы: Мы начинаем с изучения реальных сценариев, где классические подходы (вроде Hive) дают сбой. Будь то конфликты при записи, медленный поиск данных или «рассыпающаяся» схема таблицы.

  2. Теоретический блок: Разбираем внутреннюю механику Iceberg — как именно он спроектирован, чтобы этих проблем не возникало.

  3. Практический практикум: Переходим в консоль и на реальных примерах в Spark смотрим, как Iceberg элегантно решает задачу в коде.

Сертификат курса Apache Iceberg для Data Engineer

Сертификат

Успешно завершив курс, вы получите сертификат от платформы Stepik. Уже 7 учеников получили сертификат.

Расскажите о курсе друзьям