Содержание курса
1. Знакомство с платформой и сдача практических задач
1 урок
77
59
1м
1
Закрытый
1.1
Введение в курс и платформу
↗
77
59
1м 50с
1
2. Введение в Spark и основы распределенных вычислений
6 уроков
282
193
60м
1
Закрытый
2.1
Что такое Apache Spark и его место в экосистеме Big Data
↗
68
40
12м 20с
1
Закрытый
2.2
Архитектура Spark: драйвер, исполнители, кластерные менеджеры
↗
47
31
22м 29с
0
Закрытый
2.3
Чем Spark лучше Hadoop MapReduce? Отложенные вычисления
↗
41
30
8м 53с
0
Закрытый
2.4
Обзор PySpark API и его особенностей
↗
42
31
5м 4с
0
Закрытый
2.5
Установка и настройка Spark
↗
41
30
6м 22с
0
Закрытый
2.6
Первый запуск PySpark
↗
43
31
6м 31с
0
3. Работа с данными в PySpark: RDD
6 уроков
336
100
50м
3
Открытый
3.1
Что такое RDD (Resilient Distributed Dataset)
↗
185
26
4м 19с
3
Закрытый
3.2
Преобразования
↗
36
21
14м 50с
0
Закрытый
3.3
Действия
↗
31
16
19м 11с
0
Закрытый
3.4
Практическое задание
↗
35
12
6м 53с
0
Закрытый
3.5
Самостоятельная работа
↗
25
16
7м 0с
0
Закрытый
3.6
Итоговое задание
↗
24
9
-
0
4. Работа с данными в PySpark: DataFrame и Spark SQL
11 уроков
234
138
153м
0
Закрытый
4.1
DataFrame в PySpark: понятие, схема, создание
↗
26
15
18м 39с
0
Закрытый
4.2
Основные операции DataFrame API
↗
21
15
39м 6с
0
Закрытый
4.3
Spark SQL
↗
28
14
15м 2с
0
Закрытый
4.4
Схемы данных и типы
↗
23
13
18м 3с
0
Закрытый
4.5
Встроенные функции PySpark
↗
22
13
26м 24с
0
Закрытый
4.6
User Defined Functions
↗
19
15
6м 26с
0
Закрытый
4.7
Форматы: Avro, Parquet, ORC
↗
20
13
18м 18с
0
Закрытый
4.8
Pandas API
↗
20
14
6м 35с
0
Закрытый
4.9
Практическое задание
↗
20
8
4м 9с
0
Закрытый
4.10
Самостоятельная работа
↗
19
13
2м 27с
0
Закрытый
4.11
Итоговое задание
↗
16
5
-
0
5. Оптимизация производительности PySpark-приложений
8 уроков
143
68
92м
0
Закрытый
5.1
Широкие и узкие преобразования, shuffle
↗
20
10
10м 6с
0
Закрытый
5.2
Партиционирование
↗
20
10
13м 23с
0
Закрытый
5.3
Анализ плана выполнения (explain), стратегии JOIN
↗
18
9
23м 20с
0
Закрытый
5.4
Обработка неравномерных данных (Data Skew)
↗
16
10
11м 44с
0
Закрытый
5.5
Кэширование (cache, persist) и контрольные точки (checkpoint)
↗
17
9
20м 46с
0
Закрытый
5.6
Catalyst Optymizer
↗
18
9
5м 56с
0
Закрытый
5.7
Tungsten Execution Engine
↗
15
9
9м 21с
0
Закрытый
5.8
Итоговое задание
↗
19
2
-
0
6. Потоковая обработка с PySpark Structured Streaming
6 уроков
33
14
2м
0
Закрытый
6.1
Введение в PySpark Streaming
↗
11
5
2м 22с
0
Закрытый
6.2
Источники данных для Structured Streaming
↗
8
3
-
0
Закрытый
6.3
Вывод данных, Режимы вывода и Триггеры
↗
5
3
-
0
Закрытый
6.4
Управление состоянием и временем
↗
4
2
-
0
Закрытый
6.5
Самостоятельная работа
↗
3
1
-
0
Закрытый
6.6
Итоговое задание
↗
2
0
-
0
7. Машинное обучение с PySpark MLlib
6 уроков
5
1
0м
0
Закрытый
7.1
Введение в PySpark ML
↗
3
0
-
0
Закрытый
7.2
Предварительная обработка данных
↗
1
0
-
0
Закрытый
7.3
Основные алгоритмы машинного обучения в PySpark ML
↗
1
1
-
0
Закрытый
7.4
Оценка моделей в PySpark ML
↗
0
0
-
0
Закрытый
7.5
Кросс-валидация и подбор гиперпараметров
↗
0
0
-
0
Закрытый
7.6
Построение и оценка ML Pipelines
↗
0
0
-
0
8. Интеграция PySpark с внешними системами
1 урок
1
1
0м
0
Закрытый
8.1
Знакомство с хранилищами данных для работы с PySpark
↗
1
1
-
0
9. Отладка и профилирование PySpark-приложений
1 урок
1
1
0м
0
Закрытый
9.1
Как устранять ошибки?
↗
1
1
-
0
10. Чеклисты и шпаргалки по PySpark
1 урок
1
1
0м
0
Закрытый
10.1
Основные приемы
↗
1
1
-
0
11. Продвинутые темы PySpark
1 урок
2
2
0м
0
Закрытый
11.1
Что такое DeltaLake?
↗
2
2
-
0
12. Финальные проекты
1 урок
0
0
0м
0
Закрытый
12.1
Варианты итоговых работ
↗
0
0
-
0