Курс на Stepik
Обложка курса «PySpark с нуля» на Stepik
12 500 ₽

PySpark с нуля 5.000

Открыть на
STEPIK.ORG

Курс предназначен для начинающих специалистов в области обработки больших данных. Вы изучите основы распределённых вычислений с Apache Spark, научитесь работать с RDD и DataFrame, познакомитесь с Spark SQL, оптимизацией запросов, потоковой обработкой и библиотекой машинного обучения MLlib. В финале курса Вы решите практическое задание и добавите готовый проект в портфолио.

Показатель Текущие показатели Рост
Значение 🏆 Рейтинг 3 дн 7 дн 30 дн
Количество учеников на курсе «PySpark с нуля»Учеников на курсе 266
Сертификаты, выданные на курсе «PySpark с нуля»Сертификатов выдано 0
Отзывы о курсе «PySpark с нуля»Отзывов получено 1
Рейтинг курса «PySpark с нуля»Рейтинг курса 5.000
Уроки в курсе «PySpark с нуля»Количество уроков 56
Тесты в курсе «PySpark с нуля»Количество квизов 221
Задачи с кодом в курсе «PySpark с нуля»Количество задач с кодом 6
Время прохождения курса «PySpark с нуля»Время прохождения курса
Стоимость курса «PySpark с нуля»Стоимость курса 12 500 ₽
Обновления курса «PySpark с нуля»Обновления курса
Дата публикации курса «PySpark с нуля»Дата публикации курса
Последнее обновление курса «PySpark с нуля»Последнее обновление
Сложность easy

Содержание курса

Разделы в курсе «PySpark с нуля» 12 разделов Уроки в курсе «PySpark с нуля» 56 уроков Тесты в курсе «PySpark с нуля» 221 тест Задачи в курсе «PySpark с нуля» 6 задач Время прохождения курса «PySpark с нуля» 13 ч. Последнее обновление курса «PySpark с нуля» обн. 6 мая 2026

1. Знакомство с платформой и сдача практических задач

1 урок
Закрытый
1.1 Введение в курс и платформу
77
59
1м 50с
1

2. Введение в Spark и основы распределенных вычислений

6 уроков
Закрытый
2.1 Что такое Apache Spark и его место в экосистеме Big Data
68
40
12м 20с
1
Закрытый
2.2 Архитектура Spark: драйвер, исполнители, кластерные менеджеры
47
31
22м 29с
0
Закрытый
2.3 Чем Spark лучше Hadoop MapReduce? Отложенные вычисления
41
30
8м 53с
0
Закрытый
2.4 Обзор PySpark API и его особенностей
42
31
5м 4с
0
Закрытый
2.5 Установка и настройка Spark
41
30
6м 22с
0
Закрытый
2.6 Первый запуск PySpark
43
31
6м 31с
0

3. Работа с данными в PySpark: RDD

6 уроков
Открытый
3.1 Что такое RDD (Resilient Distributed Dataset)
185
26
4м 19с
3
Закрытый
3.2 Преобразования
36
21
14м 50с
0
Закрытый
3.3 Действия
31
16
19м 11с
0
Закрытый
3.4 Практическое задание
35
12
6м 53с
0
Закрытый
3.5 Самостоятельная работа
25
16
7м 0с
0
Закрытый
3.6 Итоговое задание
24
9
-
0

4. Работа с данными в PySpark: DataFrame и Spark SQL

11 уроков
Закрытый
4.1 DataFrame в PySpark: понятие, схема, создание
26
15
18м 39с
0
Закрытый
4.2 Основные операции DataFrame API
21
15
39м 6с
0
Закрытый
4.3 Spark SQL
28
14
15м 2с
0
Закрытый
4.4 Схемы данных и типы
23
13
18м 3с
0
Закрытый
4.5 Встроенные функции PySpark
22
13
26м 24с
0
Закрытый
4.6 User Defined Functions
19
15
6м 26с
0
Закрытый
4.7 Форматы: Avro, Parquet, ORC
20
13
18м 18с
0
Закрытый
4.8 Pandas API
20
14
6м 35с
0
Закрытый
4.9 Практическое задание
20
8
4м 9с
0
Закрытый
4.10 Самостоятельная работа
19
13
2м 27с
0
Закрытый
4.11 Итоговое задание
16
5
-
0

5. Оптимизация производительности PySpark-приложений

8 уроков
Закрытый
5.1 Широкие и узкие преобразования, shuffle
20
10
10м 6с
0
Закрытый
5.2 Партиционирование
20
10
13м 23с
0
Закрытый
5.3 Анализ плана выполнения (explain), стратегии JOIN
18
9
23м 20с
0
Закрытый
5.4 Обработка неравномерных данных (Data Skew)
16
10
11м 44с
0
Закрытый
5.5 Кэширование (cache, persist) и контрольные точки (checkpoint)
17
9
20м 46с
0
Закрытый
5.6 Catalyst Optymizer
18
9
5м 56с
0
Закрытый
5.7 Tungsten Execution Engine
15
9
9м 21с
0
Закрытый
5.8 Итоговое задание
19
2
-
0

6. Потоковая обработка с PySpark Structured Streaming

6 уроков
Закрытый
6.1 Введение в PySpark Streaming
11
5
2м 22с
0
Закрытый
6.2 Источники данных для Structured Streaming
8
3
-
0
Закрытый
6.3 Вывод данных, Режимы вывода и Триггеры
5
3
-
0
Закрытый
6.4 Управление состоянием и временем
4
2
-
0
Закрытый
6.5 Самостоятельная работа
3
1
-
0
Закрытый
6.6 Итоговое задание
2
0
-
0

7. Машинное обучение с PySpark MLlib

6 уроков
Закрытый
7.1 Введение в PySpark ML
3
0
-
0
Закрытый
7.2 Предварительная обработка данных
1
0
-
0
Закрытый
7.3 Основные алгоритмы машинного обучения в PySpark ML
1
1
-
0
Закрытый
7.4 Оценка моделей в PySpark ML
0
0
-
0
Закрытый
7.5 Кросс-валидация и подбор гиперпараметров
0
0
-
0
Закрытый
7.6 Построение и оценка ML Pipelines
0
0
-
0

8. Интеграция PySpark с внешними системами

1 урок
Закрытый
8.1 Знакомство с хранилищами данных для работы с PySpark
1
1
-
0

9. Отладка и профилирование PySpark-приложений

1 урок
Закрытый
9.1 Как устранять ошибки?
1
1
-
0

10. Чеклисты и шпаргалки по PySpark

1 урок
Закрытый
10.1 Основные приемы
1
1
-
0

11. Продвинутые темы PySpark

1 урок
Закрытый
11.1 Что такое DeltaLake?
2
2
-
0

12. Финальные проекты

1 урок
Закрытый
12.1 Варианты итоговых работ
0
0
-
0