Чему вы научитесь
- Работать с реляционными и нереляционными базами данных
- Настраивать потоковую и пакетную обработку данных (Kafka, Airflow, Spark)
- Разрабатывать и оптимизировать ETL-пайплайны
- Использовать Docker, Pandas, Hive, PySpark для обработки данных
- Автоматизировать загрузку, очистку и трансформацию данных
- Интегрировать данные из разных источников и визуализировать метрики
- Работать в команде над реальными задачами
О курсе
Для кого этот курс
Начальные требования
-
Необходимо уметь кодить основные конструкции Python (for, while, try/except, основные структуры данных)
-
Нужно знать любой диалект SQL на уровне написания простых запросов (фильтрация, join)
-
git — необходимо уметь создавать репозитории GIT и уметь пушить в удалённый репо (если что - научим)
-
Наличие компьютера с более 8 Гб оперативной памяти и жесткий диск от 128 Гб.