Чему вы научитесь
- Проектировать архитектуру Spark-приложений для работы с датасетами на сотни миллионов строк.
- Оптимизировать запросы через понимание Catalyst, Tungsten и AQE - и сокращать время выполнения в 5-10 раз.
- Устранять перекосы данных (data skew) и бороться с OOM, используя техники salted join, broadcast hints и динамическую оптимизацию.
- Выбирать правильные стратегии join под конкретную задачу, а не полагаться на «авось Spark разберётся».
- Работать с оконными функциями и строить сложные агрегации без потери производительности.
- Писать эффективные UDF и Pandas UDF, понимая их узкие места и цену каждой сериализации.
- Применять партиционирование и бактерирование для ускорения чтения и join-ов на больших данных.
- Решать продуктовые задачи на PySpark: строить воронки, считать когортный retention, ARPU/ARPPU и анализировать A/B тесты.
- Читать и интерпретировать планы выполнения (explain) и логи Spark UI.
- Проходить собеседования в BigTech по PySpark — на реальных задачах уровня Middle+ и Senior.
О курсе
60+ задач уровня Middle+/Senior. Реальные кейсы с собеседований в российский и зарубежный BigTech. Финальный проект на 500 млн строк + практика code review. Экспертный курс для тех, кто готов к сложным интервью.
Для кого этот курс
Data Engineers c опытом от 2 лет, которые хотят прокачаться до Senior и уверенно проходить собеседования в Яндекс, Сбер, Ozon, Тинькофф и зарубежные компании.
Data Scientists, которые работают с большими данными и хотят писать эффективный продакшн-код на PySpark, а не «колхозить» на ноутбуках.
Выпускники моего базового курса «40 задач PySpark» - если вы его прошли, этот курс - ваш следующий уровень.
Все, кто готовится к собеседованиям на позиции Middle+/Senior и хочет видеть не просто вопросы, а реальные кейсы с разбором ошибок и подводных камней.
Это курс для тех, кто готов платить за экспертизу, а не за пересказ документации.