Сколько стоит курс «Data Engineer с нуля до junior + PySpark»?

Стоимость курса составляет 10990.00 рублей

Сколько времени занимает прохождение курса «Data Engineer с нуля до junior + PySpark»?

Прохождение курса «Data Engineer с нуля до junior + PySpark» занимает примерно 62 часов.

Какой рейтинг у курса «Data Engineer с нуля до junior + PySpark»?

Курс имеет рейтинг 4.9 из 5 на основе 0 отзывов. На курсе обучается 10 учеников.

Где можно пройти курс «Data Engineer с нуля до junior + PySpark»?

Курс доступен на образовательной платформе Stepik по адресу stepik.org/course/249784.

Курс на Stepik

Обложка курса «Data Engineer с нуля до junior + PySpark» на Stepik

10 990 ₽

Data Engineer с нуля до junior + PySpark ★ 4.936

Name: Data Engineer с нуля до junior + PySpark
Price: 10990.00 RUB
Availability: InStock
Rating: 4.935897435897436 (0 reviews)

Открыть на
STEPIK.ORG

Это набор курсов для погружения в IT направление "Большие данные" как Data Engineer. Со включенным сюда дополнительным курсом PySpark Вы изучите основы распределённых вычислений с Apache Spark, научитесь работать с RDD и DataFrame, познакомитесь с Spark SQL, оптимизацией запросов, потоковой обработкой и библиотекой машинного обучения MLlib. По окончании курса По окончании курса Вам будет предложено решить финальное задание на выбор, которое пойдет в Ваше портфолио и отразит все знания, полученные на курсе.

Показатель	Текущие показатели		Рост
Показатель	Значение	🏆 Рейтинг	3 дн	7 дн	30 дн
Учеников на курсе	10
Сертификатов выдано	0
Отзывов получено	40
Рейтинг курса	4.936
Курсов в пакете	2	—	—	—	—
Количество уроков	230
Количество квизов	588
Количество задач с кодом	118
Время прохождения курса	64 ч.	—
Стоимость курса	10 990 ₽	—
Обновления курса	—	—
Дата публикации курса	11 месяцев назад	—	—	—	—
Последнее обновление	10 февраля 2026	—	—	—	—
Сложность	easy	—	—	—	—

Содержание пакета (2 курса)

Курсы в пакете «Data Engineer с нуля до junior + PySpark»

2 курса Уроки в курсе «Data Engineer с нуля до junior + PySpark»

230 уроков Тесты в курсе «Data Engineer с нуля до junior + PySpark»

588 тестов Задачи в курсе «Data Engineer с нуля до junior + PySpark»

118 задач Время прохождения курса «Data Engineer с нуля до junior + PySpark»

64 ч.

1. PySpark с нуля 5.0

267

221

14 ч.

1. Знакомство с платформой и сдача практических задач

1 урок

Закрытый

1.1 Введение в курс и платформу ↗

1м

2. Введение в Spark и основы распределенных вычислений

6 уроков

Закрытый

2.1 Что такое Apache Spark и его место в экосистеме Big Data ↗

12м

Закрытый

2.2 Архитектура Spark: драйвер, исполнители, кластерные менеджеры ↗

22м

Закрытый

2.3 Чем Spark лучше Hadoop MapReduce? Отложенные вычисления ↗

8м

Закрытый

2.4 Обзор PySpark API и его особенностей ↗

5м

Закрытый

2.5 Установка и настройка Spark ↗

6м

Закрытый

2.6 Первый запуск PySpark ↗

6м

3. Работа с данными в PySpark: RDD

6 уроков

Открытый

3.1 Что такое RDD (Resilient Distributed Dataset) ↗

185

4м

Закрытый

3.2 Преобразования ↗

14м

Закрытый

3.3 Действия ↗

19м

Закрытый

3.4 Практическое задание ↗

6м

Закрытый

3.5 Самостоятельная работа ↗

7м

Закрытый

3.6 Итоговое задание ↗

4. Работа с данными в PySpark: DataFrame и Spark SQL

11 уроков

Закрытый

4.1 DataFrame в PySpark: понятие, схема, создание ↗

18м

Закрытый

4.2 Основные операции DataFrame API ↗

39м

Закрытый

4.3 Spark SQL ↗

15м

Закрытый

4.4 Схемы данных и типы ↗

18м

Закрытый

4.5 Встроенные функции PySpark ↗

26м

Закрытый

4.6 User Defined Functions ↗

6м

Закрытый

4.7 Форматы: Avro, Parquet, ORC ↗

18м

Закрытый

4.8 Pandas API ↗

6м

Закрытый

4.9 Практическое задание ↗

4м

Закрытый

4.10 Самостоятельная работа ↗

2м

Закрытый

4.11 Итоговое задание ↗

5. Оптимизация производительности PySpark-приложений

8 уроков

Закрытый

5.1 Широкие и узкие преобразования, shuffle ↗

10м

Закрытый

5.2 Партиционирование ↗

13м

Закрытый

5.3 Анализ плана выполнения (explain), стратегии JOIN ↗

23м

Закрытый

5.4 Обработка неравномерных данных (Data Skew) ↗

11м

Закрытый

5.5 Кэширование (cache, persist) и контрольные точки (checkpoint) ↗

20м

Закрытый

5.6 Catalyst Optymizer ↗

5м

Закрытый

5.7 Tungsten Execution Engine ↗

9м

Закрытый

5.8 Итоговое задание ↗

6. Потоковая обработка с PySpark Structured Streaming

6 уроков

Закрытый

6.1 Введение в PySpark Streaming ↗

2м

Закрытый

6.2 Источники данных для Structured Streaming ↗

Закрытый

6.3 Вывод данных, Режимы вывода и Триггеры ↗

Закрытый

6.4 Управление состоянием и временем ↗

Закрытый

6.5 Самостоятельная работа ↗

Закрытый

6.6 Итоговое задание ↗

7. Машинное обучение с PySpark MLlib

6 уроков

Закрытый

7.1 Введение в PySpark ML ↗

Закрытый

7.2 Предварительная обработка данных ↗

Закрытый

7.3 Основные алгоритмы машинного обучения в PySpark ML ↗

Закрытый

7.4 Оценка моделей в PySpark ML ↗

Закрытый

7.5 Кросс-валидация и подбор гиперпараметров ↗

Закрытый

7.6 Построение и оценка ML Pipelines ↗

8. Интеграция PySpark с внешними системами

1 урок

Закрытый

8.1 Знакомство с хранилищами данных для работы с PySpark ↗

9. Отладка и профилирование PySpark-приложений

1 урок

Закрытый

9.1 Как устранять ошибки? ↗

10. Чеклисты и шпаргалки по PySpark

1 урок

Закрытый

10.1 Основные приемы ↗

11. Продвинутые темы PySpark

1 урок

Закрытый

11.1 Что такое DeltaLake? ↗

12. Финальные проекты

1 урок

Закрытый

12.1 Варианты итоговых работ ↗

2. Профессия Data Engineer с нуля до junior 4.871794871794871

3 166

174

367

112

50 ч.

1. Знакомство с платформой и сдача практических задач

2 урока

Закрытый

1.1 Введение в курс ↗

2 701

342

27м

224

Закрытый

1.2 Сдача практических задач и знакомство с платформой ↗

2 441

2 280

7м

2. Что такое информация, данные и BigData?

8 уроков

Закрытый

2.1 Что такое информация? Основные виды. Операции над информацией ↗

2 160

1 905

10м

Закрытый

2.2 Где можно хранить информацию? Обзор основных форматов ↗

2 020

1 889

6м

Закрытый

2.3 Чем вызвано появление Big Data? История направления ↗

1 978

1 863

4м

Закрытый

2.4 Основные свойства больших данных ↗

1 964

1 852

4м

Закрытый

2.5 Как хранят и обрабатывают большие данные? ↗

1 958

1 879

7м

Закрытый

2.6 Что такое ETL/ELT процессы? Batch/Streaming обработка данных ↗

1 992

1 846

10м

115

Закрытый

2.7 На кого мы с Вами учимся? Что за Data Engineer такой ↗

1 929

1 838

3м

Закрытый

2.8 Реальные примеры того, как Big Data используется в жизни ↗

1 917

1 794

12м

3. Теория баз данных

9 уроков

Закрытый

3.1 Введение в базы данных ↗

2 136

1 808

8м

Закрытый

3.2 Виды баз данных ↗

2 095

1 753

7м

Закрытый

3.3 Что такое OLAP и OLTP? ↗

1 925

1 748

5м

Закрытый

3.4 Что такое таблица и из каких элементов она состоит? ↗

1 833

1 700

7м

Закрытый

3.5 Свойства ACID и транзакции ↗

2 027

1 728

10м

Закрытый

3.6 Реляционная алгебра, круги Эйлера, диаграммы Венна ↗

1 776

1 583

10м

Закрытый

3.7 Что такое ключи, зачем они нужны и какие виды есть? ↗

1 740

1 591

8м

Закрытый

3.8 Виды связей таблиц ↗

2 010

1 577

8м

Закрытый

3.9 Нормализация, нормальные формы и их виды ↗

2 024

1 594

8м

4. Обустраиваем рабочее место | Docker | VB

5 уроков

Закрытый

4.1 Организация рабочего места ↗

1 789

1 627

12м

Закрытый

4.2 Вариант 1: Виртуальная машина на базе VirtualBox ↗

1 651

1 188

3м

Открытый

4.3 Вариант 2: Docker ↗

2 243

1 454

32м

Закрытый

4.4 Тесты по Docker ↗

1 468

1 225

2м

Закрытый

4.5 Итоговое задание ↗

1 377

562

81м

5. Введение в SQL

14 уроков

Закрытый

5.1 История создания SQL и его диалекты ↗

1 743

1 518

18м

Закрытый

5.2 Начало работы с PostgreSQL в PGAdmin4 ↗

1 673

1 121

29м

Закрытый

5.3 SELECT ↗

1 579

1 340

19м

Закрытый

5.4 Агрегатные функции ↗

1 456

1 269

12м

Закрытый

5.5 Order By и Group By ↗

1 416

1 182

19м

Закрытый

5.6 Подзапросы ↗

1 379

1 076

37м

Закрытый

5.7 Union vs Union ALL ↗

1 346

1 136

16м

Закрытый

5.8 Различные виды Join'ов и их разница ↗

1 324

998

60м

Закрытый

5.9 Оконные функции ↗

1 360

961

60м

Закрытый

5.10 Транзакции ↗

1 143

7м

Закрытый

5.11 Решаем реальные задачи ↗

1 339

1 213

22м

Закрытый

5.12 Задания по SQL v2 проверка результата ↗

977

480

95м

Закрытый

5.13 PostgreSQL в облачной инфраструктуре Yandex Cloud ↗

680

547

7м

Открытый

5.14 Итоговое задание ↗

1 633

685

39м

6. Система контроля версий GIT

8 уроков

Закрытый

6.1 Что такое Git? Регистрация на GitHub ↗

1 381

1 144

14м

Закрытый

6.2 Создание репозитория ↗

1 247

1 110

3м

Закрытый

6.3 Соединяем удаленный и локальный репозиторий ↗

1 076

781

16м

Закрытый

6.4 Отправка версий проекта или что такое коммиты ↗

1 126

992

10м

Закрытый

6.5 Ветки проекта (branches) ↗

1 080

980

3м

Закрытый

6.6 Публикация и редактирование грамотного README.md ↗

1 072

768

7м

Закрытый

6.7 Что такое CI/CD и как это работает? ↗

1 047

924

11м

Закрытый

6.8 Итоговое задание ↗

1 104

553

31м

7. Столбцовые (колоночные) базы данных. Введение в ClickHouse

7 уроков

Закрытый

7.1 Что такое OLAP? Знакомство с ClickHouse ↗

1 428

1 144

23м

Закрытый

7.2 Установка подключения к ClickHouse ↗

1 270

1 087

6м

Закрытый

7.3 Начало работы с ClickHouse: основные команды и особенности ↗

1 245

1 033

13м

Закрытый

7.4 Движки в ClickHouse ↗

1 188

957

25м

Закрытый

7.5 Плюсы и минусы ClickHouse ↗

1 115

967

3м

Закрытый

7.6 Ресурсы по ClickHouse и дальнейший трек развития ↗

1 128

0м

Закрытый

7.7 ClickHouse в Yandex Cloud. Особенности. ↗

523

424

5м

8. DWH - Data WareHouse

5 уроков

Закрытый

8.1 Что такое DWH? ↗

1 161

174

8м

Закрытый

8.2 Из чего состоит DWH? ↗

1 109

185

11м

Закрытый

8.3 Концептуальный, логический и физический уровень моделирования ↗

1 081

167

7м

Закрытый

8.4 Известные модели данных: звезда и снежинка ↗

1 184

149

15м

Закрытый

8.5 Что такое DataVault и Anchor Model ↗

1 063

138

12м

9. NoSQL хранилища данных

2 урока

Закрытый

9.1 Что такое NoSQL хранилища данных? ↗

1 174

982

7м

Закрытый

9.2 Знакомство с основными дистрибутивами NoSQL ↗

1 099

922

19м

10. Озера данных

6 уроков

Закрытый

10.1 Что такое озеро данных? ↗

170

3м

Закрытый

10.2 Сравнение озера данных с обычными базами данных ↗

1 117

143

2м

Закрытый

10.3 Актуальность озер данных ↗

1 004

118

6м

Закрытый

10.4 Болото данных ↗

990

132

3м

Закрытый

10.5 Архитектура озер данных ↗

980

135

7м

Закрытый

10.6 S3 хранилища вообще и Yandex Object Storage в частности ↗

591

526

16м

11. Введение в Linux | Bash | cURL

6 уроков

Закрытый

11.1 Что такое Linux? Виды дистрибутивов. Windows/Linux/MacOS ↗

797

674

8м

Закрытый

11.2 UI интерфейс vs Терминал ↗

733

582

21м

Закрытый

11.3 Введение в Bash | Реальные задачи ↗

698

446

58м

Закрытый

11.4 Введение в cURL, основные команды ↗

585

442

10м

Закрытый

11.5 Облачные виртуальные машины Yandex Cloud ↗

416

339

5м

Закрытый

11.6 Итоговое задание ↗

685

223

82м

12. Распределенная файловая система HDFS

7 уроков

Закрытый

12.1 Введение в Hadoop ↗

809

1м

Закрытый

12.2 Что такое Cloudera, ArenaData и зачем они нам нужны? ↗

750

680

3м

Закрытый

12.3 Установка HDFS Cloudera через VM (тяжелый способ) ↗

712

3м

Закрытый

12.4 Установка HDFS через Docker (оптимальный способ) ↗

722

632

3м

Закрытый

12.5 Архитектура HDFS и загрузка/выгрузка файла в/из хранилище ↗

704

611

9м

Закрытый

12.6 Основные форматы файлов для хранения ↗

654

2м

Закрытый

12.7 Основные команды HDFS + практика ↗

677

472

12м

13. Программирование на Python

14 уроков

Закрытый

13.1 История Python, установка и актуальность в Big Data ↗

1 100

837

15м

Закрытый

13.2 Понятие переменной, как правильно именовать объекты, комментарии ↗

1 004

684

2м

Закрытый

13.3 Примитивные типы данных в Python ↗

964

509

28м

Закрытый

13.4 Введение в строки ↗

891

463

39м

Закрытый

13.5 Условный и тернарный оператор, AND/OR, операторы сравнения ↗

821

386

49м

Закрытый

13.6 Циклы for и while ↗

758

327

73м

Закрытый

13.7 Что такое list, set, dict и tuple? ↗

763

339

58м

Закрытый

13.8 Что такое try except? Работа с файлами. ↗

759

457

8м

Закрытый

13.9 Знакомство с функциями ↗

554

256

79м

Закрытый

13.10 Знакомство с популярными библиотеками ↗

556

292

23м

Закрытый

13.11 Введение в ООП ↗

611

315

32м

Закрытый

13.12 Как собираются приложения на Python? ↗

580

515

2м

Открытый

13.13 Подключаемся к базам данных ↗

1 811

438

7м

Закрытый

13.14 Итоговое задание ↗

767

278

86м

14. Алгоритмы и сортировки, big O

5 уроков

Закрытый

14.1 Что такое алгоритмы и зачем они нам нужны? ↗

582

448

6м

Закрытый

14.2 Оценки алгоритма, big O ↗

539

424

9м

Закрытый

14.3 Сортировки в Python ↗

515

361

10м

Закрытый

14.4 Реализация популярных алгоритмов на Python ↗

485

330

7м

Закрытый

14.5 Где решать задачи на алгоритмы? ↗

488

402

2м

15. Обработка данных с использованием движка PySpark

12 уроков

Закрытый

15.1 История создания PySpark, его конкуренты и основные ядра ↗

1 001

778

5м

Закрытый

15.2 Настройка и установка PySpark ↗

926

487

26м

Закрытый

15.3 Создание Spark Session и сравнение со Spark Context ↗

859

675

6м

Закрытый

15.4 Как происходит выполнение задачи в PySpark? ↗

799

637

8м

Закрытый

15.5 RDD vs Dataset vs Dataframe ↗

761

568

58м

Закрытый

15.6 Действия и преобразования ↗

674

549

5м

Закрытый

15.7 Avro vs ORC vs Parquet ↗

652

520

11м

Закрытый

15.8 Чтение файлов и запись в rdd/dataframe ↗

636

481

30м

Закрытый

15.9 Знакомство с SparkSQL ↗

621

489

7м

Открытый

15.10 Как подключиться из PySpark к базам данных? ↗

750

553

7м

Закрытый

15.11 Самостоятельная работа ↗

615

409

3м

Закрытый

15.12 Итоговое задание ↗

593

195

70м

16. Инструменты стека Hadoop

7 уроков

Закрытый

16.1 Что такое Hive, Pig и зачем они нам вообще нужны? Установка. ↗

503

365

6м

Закрытый

16.2 Архитектурная особенность Hive ↗

397

344

5м

Закрытый

16.3 Работа с HiveQL ↗

379

326

4м

Закрытый

16.4 Партицирование vs бакетирование в Hive ↗

367

287

9м

Закрытый

16.5 Внешние и внутренние таблицы в Hive ↗

334

274

4м

Закрытый

16.6 Что такое Hue? Преимущества и недостатки ↗

333

2м

Закрытый

16.7 Что такое Yarn? Нужен ли он нам? Конкуренты Yarn. ↗

350

289

9м

17. Углубленное изучение Spark

10 уроков

Закрытый

17.1 Что такое Spark Shell? ↗

609

477

3м

Закрытый

17.2 Catalyst Optimizer ↗

507

377

7м

Закрытый

17.3 Tungsten Execution Engine ↗

459

357

5м

Закрытый

17.4 Spark Submit ↗

470

355

3м

Закрытый

17.5 Repartition and Coalesce ↗

453

342

20м

Закрытый

17.6 Cache vs Persist ↗

420

267

25м

Закрытый

17.7 Создание UDF ↗

415

325

3м

Закрытый

17.8 Broadcast ↗

411

324

4м

Закрытый

17.9 Настраиваем собственный Spark Server в Docker ↗

326

241

3м

Закрытый

17.10 Общая работа ↗

453

351

5м

18. Программирование на Scala

14 уроков

Закрытый

18.1 Почему именно Scala и введение в функциональное программирование ↗

538

353

3м

Закрытый

18.2 Введение в историю языка программирования Scala ↗

429

370

2м

Закрытый

18.3 Что такое SBT/Maven ↗

421

298

6м

Закрытый

18.4 Установка Scala ↗

396

320

3м

Закрытый

18.5 Типы данных ↗

395

285

3м

Закрытый

18.6 Переменные ↗

369

235

20м

Закрытый

18.7 Основные структуры данных в Scala ↗

323

218

21м

Закрытый

18.8 Условный оператор и циклы ↗

300

187

41м

Закрытый

18.9 Функции ↗

298

176

26м

Закрытый

18.10 Функции высшего порядка, чистые функции ↗

274

171

15м

Закрытый

18.11 Анонимные функции ↗

255

203

4м

Закрытый

18.12 Каррирование, неявные параметры, частичное применение ↗

258

195

13м

Закрытый

18.13 Case классы и трейты ↗

255

191

7м

Закрытый

18.14 Итоговое задание ↗

322

101

42м

19. Введение в Pandas и работа с API

5 уроков

Закрытый

19.1 Знакомство с Pandas ↗

583

433

6м

Закрытый

19.2 Работа с DataFrame и Series ↗

523

386

12м

Закрытый

19.3 Манипуляция и очистка данных ↗

466

352

7м

Закрытый

19.4 Группировка, агрегация и объединение данных ↗

456

321

8м

Закрытый

19.5 Работа с API ↗

582

422

4м

20. Оркестраторы рабочих процессов при работе с большими данными

9 уроков

Закрытый

20.1 Что такое графы и какие есть виды ↗

758

568

4м

Закрытый

20.2 Оркестраторы, как основа автоматизации ↗

699

525

7м

Закрытый

20.3 Oozie vs Airflow ↗

686

516

5м

Закрытый

20.4 Установка Airflow. ↗

698

2м

Закрытый

20.5 Введение в Airflow. Основные понятия: Airflow UI, Sheduling, DAG ↗

684

486

15м

Закрытый

20.6 Переменные, подключения и XCOM ↗

602

406

11м

Закрытый

20.7 Погружение в операторы Airflow. Sensor операторы ↗

555

362

14м

Открытый

20.8 Устанавливаем библиотеки Python в Airflow ↗

846

443

3м

Закрытый

20.9 Работа с файлами в Airflow ↗

434

349

2м

21. Знакомство с Kafka

3 урока

Закрытый

21.1 Что такое kafka? ↗

731

442

6м

Закрытый

21.2 Где применяется kafka? ↗

562

376

10м

Закрытый

21.3 Практика c Kafka ↗

562

341

5м

22. Мониторинг витрин и приложений

6 уроков

Закрытый

22.1 Мониторинг витрин : качественный и количественный ↗

559

332

14м

Закрытый

22.2 Визуализация метрик в Grafana ↗

465

319

3м

Закрытый

22.3 Настройка отправки алертов на почту ↗

425

307

3м

Открытый

22.4 Настройка отправки алертов в telegram ↗

574

300

2м

Закрытый

22.5 Что такое Prometheus и VictoriaMetrics? ↗

400

2м

Закрытый

22.6 Установка Grafana, создание первых дашбордов ↗

360

308

8м

23. Инструменты командной работы

5 уроков

Закрытый

23.1 Сравнение методологий Agile и Kanban ↗

469

344

16м

Закрытый

23.2 Основные профессии, устройство команды и зона ответственности ↗

448

321

4м

Закрытый

23.3 Jira и Confluence ↗

495

345

2м

Закрытый

23.4 Документация витрины ↗

473

334

1м

Закрытый

23.5 Грейды data engineer ↗

682

380

3м

24. Разбор основных вопросов на собеседованиях

3 урока

Закрытый

24.1 Вопросы на собеседованиях ↗

804

369

33м

Закрытый

24.2 Онлайн кодинг и выполнение тестовых заданий ↗

647

352

1м

Закрытый

24.3 Как правильно составить резюме? ↗

605

462

0м

25. Итоговая работа

2 урока

Открытый

25.1 Обсуждение итогового проекта, его сдача и критерии проверки ↗

1 028

17м

Закрытый

25.2 Наши другие продукты ↗

374

1м