Чему вы научитесь
- 1. Собрать полный Data Quality pipeline на реальном e-commerce проекте
- 2. Встраивать DQ-проверки в Airflow и останавливать пайплайн при ошибках
- 3. Настраивать автоматические проверки с Great Expectations
- 4. Валидировать данные в Python с Pydantic и Pandera
- 5. Мониторить свежесть, объём и схему данных (Data Observability)
- 6. Писать SQL-проверки на NULL, дубликаты, диапазоны и связность
О курсе
Научитесь автоматически находить грязные данные и останавливать пайплайн до того, как они сломают аналитику. SQL-проверки, Python-валидация с Pydantic и Pandera, Great Expectations, Data Observability и интеграция в Airflow: всё в одном курсе с прикладным e-commerce проектом
Для кого этот курс
Курс для вас, если вы уже работаете с SQL и Python и хотите выйти на следующий уровень: научиться делать пайплайны надёжными, а не просто работающими.
📍 аналитикам данных
📍 дата-инженерам уровня junior и middle
Начальные требования
☑️ Базовый SQL (SELECT, JOIN, GROUP BY)
☑️ Базовый Python (функции, циклы, работа с pandas).
Всё остальное разбираем в курсе с нуля.
Преподаватели курса
Как проходит обучение
Каждый модуль добавляет новый слой защиты данных.
Сначала вы пишете SQL-проверки. Потом подключаете Python-валидацию. Затем собираете Great Expectations, мониторинг и выстраиваете пайплайн в Airflow.
Сертификат
Успешно завершив курс, вы получите сертификат от платформы Stepik. Уже 1 учеников получили сертификат.
Что вы получите
- ✅ Готовый шаблон Data Quality pipeline -> забираете в свои рабочие проекты
- ✅ SQL-библиотека проверок: NULL, дубликаты, диапазоны, связность, схема
- ✅ Настроенный Great Expectations проект с validation suite и Data Docs
- ✅ Навык встраивания DQ-проверок в Airflow DAG с fail при ошибке данных
- ✅ Понимание Data Observability: freshness, volume и schema monitoring
- ✅ Сертификат Stepik -> подтверждение навыка для резюме и hh.ru
- ✅ Финальный проект в портфолио с эталонным решением
Нагрузка
4-5 часов в неделю