Содержание пакета (2 курса)
1. PySpark с нуля 5.0
1. Знакомство с платформой и сдача практических задач
1 урок
👁
77
👤
59
Закрытый
1.1
Введение в курс и платформу
↗
77
59
1м
1
2. Введение в Spark и основы распределенных вычислений
6 уроков
👁
282
👤
193
Закрытый
2.1
Что такое Apache Spark и его место в экосистеме Big Data
↗
68
40
12м
1
Закрытый
2.2
Архитектура Spark: драйвер, исполнители, кластерные менеджеры
↗
47
31
22м
0
Закрытый
2.3
Чем Spark лучше Hadoop MapReduce? Отложенные вычисления
↗
41
30
8м
0
Закрытый
2.4
Обзор PySpark API и его особенностей
↗
42
31
5м
0
Закрытый
2.5
Установка и настройка Spark
↗
41
30
6м
0
Закрытый
2.6
Первый запуск PySpark
↗
43
31
6м
0
3. Работа с данными в PySpark: RDD
6 уроков
👁
336
👤
100
Открытый
3.1
Что такое RDD (Resilient Distributed Dataset)
↗
185
26
4м
3
Закрытый
3.2
Преобразования
↗
36
21
14м
0
Закрытый
3.3
Действия
↗
31
16
19м
0
Закрытый
3.4
Практическое задание
↗
35
12
6м
0
Закрытый
3.5
Самостоятельная работа
↗
25
16
7м
0
Закрытый
3.6
Итоговое задание
↗
24
9
0
4. Работа с данными в PySpark: DataFrame и Spark SQL
11 уроков
👁
234
👤
138
Закрытый
4.1
DataFrame в PySpark: понятие, схема, создание
↗
26
15
18м
0
Закрытый
4.2
Основные операции DataFrame API
↗
21
15
39м
0
Закрытый
4.3
Spark SQL
↗
28
14
15м
0
Закрытый
4.4
Схемы данных и типы
↗
23
13
18м
0
Закрытый
4.5
Встроенные функции PySpark
↗
22
13
26м
0
Закрытый
4.6
User Defined Functions
↗
19
15
6м
0
Закрытый
4.7
Форматы: Avro, Parquet, ORC
↗
20
13
18м
0
Закрытый
4.8
Pandas API
↗
20
14
6м
0
Закрытый
4.9
Практическое задание
↗
20
8
4м
0
Закрытый
4.10
Самостоятельная работа
↗
19
13
2м
0
Закрытый
4.11
Итоговое задание
↗
16
5
0
5. Оптимизация производительности PySpark-приложений
8 уроков
👁
143
👤
68
Закрытый
5.1
Широкие и узкие преобразования, shuffle
↗
20
10
10м
0
Закрытый
5.2
Партиционирование
↗
20
10
13м
0
Закрытый
5.3
Анализ плана выполнения (explain), стратегии JOIN
↗
18
9
23м
0
Закрытый
5.4
Обработка неравномерных данных (Data Skew)
↗
16
10
11м
0
Закрытый
5.5
Кэширование (cache, persist) и контрольные точки (checkpoint)
↗
17
9
20м
0
Закрытый
5.6
Catalyst Optymizer
↗
18
9
5м
0
Закрытый
5.7
Tungsten Execution Engine
↗
15
9
9м
0
Закрытый
5.8
Итоговое задание
↗
19
2
0
6. Потоковая обработка с PySpark Structured Streaming
6 уроков
👁
33
👤
14
Закрытый
6.1
Введение в PySpark Streaming
↗
11
5
2м
0
Закрытый
6.2
Источники данных для Structured Streaming
↗
8
3
0
Закрытый
6.3
Вывод данных, Режимы вывода и Триггеры
↗
5
3
0
Закрытый
6.4
Управление состоянием и временем
↗
4
2
0
Закрытый
6.5
Самостоятельная работа
↗
3
1
0
Закрытый
6.6
Итоговое задание
↗
2
0
0
7. Машинное обучение с PySpark MLlib
6 уроков
👁
5
👤
1
Закрытый
7.1
Введение в PySpark ML
↗
3
0
0
Закрытый
7.2
Предварительная обработка данных
↗
1
0
0
Закрытый
7.3
Основные алгоритмы машинного обучения в PySpark ML
↗
1
1
0
Закрытый
7.4
Оценка моделей в PySpark ML
↗
0
0
0
Закрытый
7.5
Кросс-валидация и подбор гиперпараметров
↗
0
0
0
Закрытый
7.6
Построение и оценка ML Pipelines
↗
0
0
0
8. Интеграция PySpark с внешними системами
1 урок
👁
1
👤
1
Закрытый
8.1
Знакомство с хранилищами данных для работы с PySpark
↗
1
1
0
9. Отладка и профилирование PySpark-приложений
1 урок
👁
1
👤
1
Закрытый
9.1
Как устранять ошибки?
↗
1
1
0
10. Чеклисты и шпаргалки по PySpark
1 урок
👁
1
👤
1
Закрытый
10.1
Основные приемы
↗
1
1
0
11. Продвинутые темы PySpark
1 урок
👁
2
👤
2
Закрытый
11.1
Что такое DeltaLake?
↗
2
2
0
12. Финальные проекты
1 урок
👁
0
👤
0
Закрытый
12.1
Варианты итоговых работ
↗
0
0
0
2. Профессия Data Engineer с нуля до junior 4.872
1. Знакомство с платформой и сдача практических задач
2 урока
👁
5 142
👤
2 622
Закрытый
1.1
Введение в курс
↗
2 701
342
27м
224
Закрытый
1.2
Сдача практических задач и знакомство с платформой
↗
2 441
2 280
7м
77
2. Что такое информация, данные и BigData?
8 уроков
👁
15 918
👤
14 866
Закрытый
2.1
Что такое информация? Основные виды. Операции над информацией
↗
2 160
1 905
10м
99
Закрытый
2.2
Где можно хранить информацию? Обзор основных форматов
↗
2 020
1 889
6м
66
Закрытый
2.3
Чем вызвано появление Big Data? История направления
↗
1 978
1 863
4м
48
Закрытый
2.4
Основные свойства больших данных
↗
1 964
1 852
4м
64
Закрытый
2.5
Как хранят и обрабатывают большие данные?
↗
1 958
1 879
7м
84
Закрытый
2.6
Что такое ETL/ELT процессы? Batch/Streaming обработка данных
↗
1 992
1 846
10м
115
Закрытый
2.7
На кого мы с Вами учимся? Что за Data Engineer такой
↗
1 929
1 838
3м
70
Закрытый
2.8
Реальные примеры того, как Big Data используется в жизни
↗
1 917
1 794
12м
83
3. Теория баз данных
9 уроков
👁
17 566
👤
15 082
Закрытый
3.1
Введение в базы данных
↗
2 136
1 808
8м
93
Закрытый
3.2
Виды баз данных
↗
2 095
1 753
7м
67
Закрытый
3.3
Что такое OLAP и OLTP?
↗
1 925
1 748
5м
60
Закрытый
3.4
Что такое таблица и из каких элементов она состоит?
↗
1 833
1 700
7м
63
Закрытый
3.5
Свойства ACID и транзакции
↗
2 027
1 728
10м
86
Закрытый
3.6
Реляционная алгебра, круги Эйлера, диаграммы Венна
↗
1 776
1 583
10м
70
Закрытый
3.7
Что такое ключи, зачем они нужны и какие виды есть?
↗
1 740
1 591
8м
68
Закрытый
3.8
Виды связей таблиц
↗
2 010
1 577
8м
86
Закрытый
3.9
Нормализация, нормальные формы и их виды
↗
2 024
1 594
8м
34
4. Обустраиваем рабочее место | Docker | VB
5 уроков
👁
8 528
👤
6 056
Закрытый
4.1
Организация рабочего места
↗
1 789
1 627
12м
71
Закрытый
4.2
Вариант 1: Виртуальная машина на базе VirtualBox
↗
1 651
1 188
3м
51
Открытый
4.3
Вариант 2: Docker
↗
2 243
1 454
32м
98
Закрытый
4.4
Тесты по Docker
↗
1 468
1 225
2м
28
Закрытый
4.5
Итоговое задание
↗
1 377
562
81м
7
5. Введение в SQL
14 уроков
👁
19 048
👤
14 669
Закрытый
5.1
История создания SQL и его диалекты
↗
1 743
1 518
18м
71
Закрытый
5.2
Начало работы с PostgreSQL в PGAdmin4
↗
1 673
1 121
29м
81
Закрытый
5.3
SELECT
↗
1 579
1 340
19м
74
Закрытый
5.4
Агрегатные функции
↗
1 456
1 269
12м
53
Закрытый
5.5
Order By и Group By
↗
1 416
1 182
19м
62
Закрытый
5.6
Подзапросы
↗
1 379
1 076
37м
59
Закрытый
5.7
Union vs Union ALL
↗
1 346
1 136
16м
59
Закрытый
5.8
Различные виды Join'ов и их разница
↗
1 324
998
60м
63
Закрытый
5.9
Оконные функции
↗
1 360
961
60м
78
Закрытый
5.10
Транзакции
↗
1 143
1 143
7м
29
Закрытый
5.11
Решаем реальные задачи
↗
1 339
1 213
22м
45
Закрытый
5.12
Задания по SQL v2 проверка результата
↗
977
480
95м
31
Закрытый
5.13
PostgreSQL в облачной инфраструктуре Yandex Cloud
↗
680
547
7м
20
Открытый
5.14
Итоговое задание
↗
1 633
685
39м
25
6. Система контроля версий GIT
8 уроков
👁
9 133
👤
7 252
Закрытый
6.1
Что такое Git? Регистрация на GitHub
↗
1 381
1 144
14м
55
Закрытый
6.2
Создание репозитория
↗
1 247
1 110
3м
46
Закрытый
6.3
Соединяем удаленный и локальный репозиторий
↗
1 076
781
16м
57
Закрытый
6.4
Отправка версий проекта или что такое коммиты
↗
1 126
992
10м
54
Закрытый
6.5
Ветки проекта (branches)
↗
1 080
980
3м
45
Закрытый
6.6
Публикация и редактирование грамотного README.md
↗
1 072
768
7м
58
Закрытый
6.7
Что такое CI/CD и как это работает?
↗
1 047
924
11м
55
Закрытый
6.8
Итоговое задание
↗
1 104
553
31м
16
7. Столбцовые (колоночные) базы данных. Введение в ClickHouse
7 уроков
👁
7 897
👤
6 740
Закрытый
7.1
Что такое OLAP? Знакомство с ClickHouse
↗
1 428
1 144
23м
82
Закрытый
7.2
Установка подключения к ClickHouse
↗
1 270
1 087
6м
46
Закрытый
7.3
Начало работы с ClickHouse: основные команды и особенности
↗
1 245
1 033
13м
50
Закрытый
7.4
Движки в ClickHouse
↗
1 188
957
25м
60
Закрытый
7.5
Плюсы и минусы ClickHouse
↗
1 115
967
3м
44
Закрытый
7.6
Ресурсы по ClickHouse и дальнейший трек развития
↗
1 128
1 128
0м
45
Закрытый
7.7
ClickHouse в Yandex Cloud. Особенности.
↗
523
424
5м
14
8. DWH - Data WareHouse
5 уроков
👁
5 598
👤
813
Закрытый
8.1
Что такое DWH?
↗
1 161
174
8м
61
Закрытый
8.2
Из чего состоит DWH?
↗
1 109
185
11м
44
Закрытый
8.3
Концептуальный, логический и физический уровень моделирования
↗
1 081
167
7м
42
Закрытый
8.4
Известные модели данных: звезда и снежинка
↗
1 184
149
15м
73
Закрытый
8.5
Что такое DataVault и Anchor Model
↗
1 063
138
12м
38
9. NoSQL хранилища данных
2 урока
👁
2 273
👤
1 904
Закрытый
9.1
Что такое NoSQL хранилища данных?
↗
1 174
982
7м
45
Закрытый
9.2
Знакомство с основными дистрибутивами NoSQL
↗
1 099
922
19м
67
10. Озера данных
6 уроков
👁
4 852
👤
1 224
Закрытый
10.1
Что такое озеро данных?
↗
170
170
3м
44
Закрытый
10.2
Сравнение озера данных с обычными базами данных
↗
1 117
143
2м
43
Закрытый
10.3
Актуальность озер данных
↗
1 004
118
6м
42
Закрытый
10.4
Болото данных
↗
990
132
3м
54
Закрытый
10.5
Архитектура озер данных
↗
980
135
7м
53
Закрытый
10.6
S3 хранилища вообще и Yandex Object Storage в частности
↗
591
526
16м
25
11. Введение в Linux | Bash | cURL
6 уроков
👁
3 914
👤
2 706
Закрытый
11.1
Что такое Linux? Виды дистрибутивов. Windows/Linux/MacOS
↗
797
674
8м
36
Закрытый
11.2
UI интерфейс vs Терминал
↗
733
582
21м
55
Закрытый
11.3
Введение в Bash | Реальные задачи
↗
698
446
58м
39
Закрытый
11.4
Введение в cURL, основные команды
↗
585
442
10м
31
Закрытый
11.5
Облачные виртуальные машины Yandex Cloud
↗
416
339
5м
13
Закрытый
11.6
Итоговое задание
↗
685
223
82м
12
12. Распределенная файловая система HDFS
7 уроков
👁
5 028
👤
4 570
Закрытый
12.1
Введение в Hadoop
↗
809
809
1м
20
Закрытый
12.2
Что такое Cloudera, ArenaData и зачем они нам нужны?
↗
750
680
3м
25
Закрытый
12.3
Установка HDFS Cloudera через VM (тяжелый способ)
↗
712
712
3м
12
Закрытый
12.4
Установка HDFS через Docker (оптимальный способ)
↗
722
632
3м
24
Закрытый
12.5
Архитектура HDFS и загрузка/выгрузка файла в/из хранилище
↗
704
611
9м
21
Закрытый
12.6
Основные форматы файлов для хранения
↗
654
654
2м
13
Закрытый
12.7
Основные команды HDFS + практика
↗
677
472
12м
23
13. Программирование на Python
14 уроков
👁
11 939
👤
6 096
Закрытый
13.1
История Python, установка и актуальность в Big Data
↗
1 100
837
15м
45
Закрытый
13.2
Понятие переменной, как правильно именовать объекты, комментарии
↗
1 004
684
2м
46
Закрытый
13.3
Примитивные типы данных в Python
↗
964
509
28м
49
Закрытый
13.4
Введение в строки
↗
891
463
39м
40
Закрытый
13.5
Условный и тернарный оператор, AND/OR, операторы сравнения
↗
821
386
49м
48
Закрытый
13.6
Циклы for и while
↗
758
327
73м
39
Закрытый
13.7
Что такое list, set, dict и tuple?
↗
763
339
58м
39
Закрытый
13.8
Что такое try except? Работа с файлами.
↗
759
457
8м
23
Закрытый
13.9
Знакомство с функциями
↗
554
256
79м
21
Закрытый
13.10
Знакомство с популярными библиотеками
↗
556
292
23м
19
Закрытый
13.11
Введение в ООП
↗
611
315
32м
23
Закрытый
13.12
Как собираются приложения на Python?
↗
580
515
2м
14
Открытый
13.13
Подключаемся к базам данных
↗
1 811
438
7м
28
Закрытый
13.14
Итоговое задание
↗
767
278
86м
15
14. Алгоритмы и сортировки, big O
5 уроков
👁
2 609
👤
1 965
Закрытый
14.1
Что такое алгоритмы и зачем они нам нужны?
↗
582
448
6м
22
Закрытый
14.2
Оценки алгоритма, big O
↗
539
424
9м
27
Закрытый
14.3
Сортировки в Python
↗
515
361
10м
21
Закрытый
14.4
Реализация популярных алгоритмов на Python
↗
485
330
7м
16
Закрытый
14.5
Где решать задачи на алгоритмы?
↗
488
402
2м
17
15. Обработка данных с использованием движка PySpark
12 уроков
👁
8 887
👤
6 341
Закрытый
15.1
История создания PySpark, его конкуренты и основные ядра
↗
1 001
778
5м
28
Закрытый
15.2
Настройка и установка PySpark
↗
926
487
26м
34
Закрытый
15.3
Создание Spark Session и сравнение со Spark Context
↗
859
675
6м
28
Закрытый
15.4
Как происходит выполнение задачи в PySpark?
↗
799
637
8м
24
Закрытый
15.5
RDD vs Dataset vs Dataframe
↗
761
568
58м
25
Закрытый
15.6
Действия и преобразования
↗
674
549
5м
25
Закрытый
15.7
Avro vs ORC vs Parquet
↗
652
520
11м
18
Закрытый
15.8
Чтение файлов и запись в rdd/dataframe
↗
636
481
30м
23
Закрытый
15.9
Знакомство с SparkSQL
↗
621
489
7м
33
Открытый
15.10
Как подключиться из PySpark к базам данных?
↗
750
553
7м
13
Закрытый
15.11
Самостоятельная работа
↗
615
409
3м
34
Закрытый
15.12
Итоговое задание
↗
593
195
70м
12
16. Инструменты стека Hadoop
7 уроков
👁
2 663
👤
2 218
Закрытый
16.1
Что такое Hive, Pig и зачем они нам вообще нужны? Установка.
↗
503
365
6м
23
Закрытый
16.2
Архитектурная особенность Hive
↗
397
344
5м
14
Закрытый
16.3
Работа с HiveQL
↗
379
326
4м
12
Закрытый
16.4
Партицирование vs бакетирование в Hive
↗
367
287
9м
9
Закрытый
16.5
Внешние и внутренние таблицы в Hive
↗
334
274
4м
6
Закрытый
16.6
Что такое Hue? Преимущества и недостатки
↗
333
333
2м
7
Закрытый
16.7
Что такое Yarn? Нужен ли он нам? Конкуренты Yarn.
↗
350
289
9м
11
17. Углубленное изучение Spark
10 уроков
👁
4 523
👤
3 416
Закрытый
17.1
Что такое Spark Shell?
↗
609
477
3м
23
Закрытый
17.2
Catalyst Optimizer
↗
507
377
7м
18
Закрытый
17.3
Tungsten Execution Engine
↗
459
357
5м
14
Закрытый
17.4
Spark Submit
↗
470
355
3м
13
Закрытый
17.5
Repartition and Coalesce
↗
453
342
20м
16
Закрытый
17.6
Cache vs Persist
↗
420
267
25м
19
Закрытый
17.7
Создание UDF
↗
415
325
3м
16
Закрытый
17.8
Broadcast
↗
411
324
4м
16
Закрытый
17.9
Настраиваем собственный Spark Server в Docker
↗
326
241
3м
10
Закрытый
17.10
Общая работа
↗
453
351
5м
16
18. Программирование на Scala
14 уроков
👁
4 833
👤
3 303
Закрытый
18.1
Почему именно Scala и введение в функциональное программирование
↗
538
353
3м
17
Закрытый
18.2
Введение в историю языка программирования Scala
↗
429
370
2м
13
Закрытый
18.3
Что такое SBT/Maven
↗
421
298
6м
17
Закрытый
18.4
Установка Scala
↗
396
320
3м
17
Закрытый
18.5
Типы данных
↗
395
285
3м
15
Закрытый
18.6
Переменные
↗
369
235
20м
20
Закрытый
18.7
Основные структуры данных в Scala
↗
323
218
21м
14
Закрытый
18.8
Условный оператор и циклы
↗
300
187
41м
15
Закрытый
18.9
Функции
↗
298
176
26м
17
Закрытый
18.10
Функции высшего порядка, чистые функции
↗
274
171
15м
15
Закрытый
18.11
Анонимные функции
↗
255
203
4м
3
Закрытый
18.12
Каррирование, неявные параметры, частичное применение
↗
258
195
13м
14
Закрытый
18.13
Case классы и трейты
↗
255
191
7м
12
Закрытый
18.14
Итоговое задание
↗
322
101
42м
6
19. Введение в Pandas и работа с API
5 уроков
👁
2 610
👤
1 914
Закрытый
19.1
Знакомство с Pandas
↗
583
433
6м
24
Закрытый
19.2
Работа с DataFrame и Series
↗
523
386
12м
25
Закрытый
19.3
Манипуляция и очистка данных
↗
466
352
7м
14
Закрытый
19.4
Группировка, агрегация и объединение данных
↗
456
321
8м
19
Закрытый
19.5
Работа с API
↗
582
422
4м
34
20. Оркестраторы рабочих процессов при работе с большими данными
9 уроков
👁
5 962
👤
4 353
Закрытый
20.1
Что такое графы и какие есть виды
↗
758
568
4м
28
Закрытый
20.2
Оркестраторы, как основа автоматизации
↗
699
525
7м
27
Закрытый
20.3
Oozie vs Airflow
↗
686
516
5м
25
Закрытый
20.4
Установка Airflow.
↗
698
698
2м
19
Закрытый
20.5
Введение в Airflow. Основные понятия: Airflow UI, Sheduling, DAG
↗
684
486
15м
30
Закрытый
20.6
Переменные, подключения и XCOM
↗
602
406
11м
24
Закрытый
20.7
Погружение в операторы Airflow. Sensor операторы
↗
555
362
14м
20
Открытый
20.8
Устанавливаем библиотеки Python в Airflow
↗
846
443
3м
12
Закрытый
20.9
Работа с файлами в Airflow
↗
434
349
2м
15
21. Знакомство с Kafka
3 урока
👁
1 855
👤
1 159
Закрытый
21.1
Что такое kafka?
↗
731
442
6м
22
Закрытый
21.2
Где применяется kafka?
↗
562
376
10м
20
Закрытый
21.3
Практика c Kafka
↗
562
341
5м
15
22. Мониторинг витрин и приложений
6 уроков
👁
2 783
👤
1 966
Закрытый
22.1
Мониторинг витрин : качественный и количественный
↗
559
332
14м
20
Закрытый
22.2
Визуализация метрик в Grafana
↗
465
319
3м
20
Закрытый
22.3
Настройка отправки алертов на почту
↗
425
307
3м
14
Открытый
22.4
Настройка отправки алертов в telegram
↗
574
300
2м
21
Закрытый
22.5
Что такое Prometheus и VictoriaMetrics?
↗
400
400
2м
9
Закрытый
22.6
Установка Grafana, создание первых дашбордов
↗
360
308
8м
20
23. Инструменты командной работы
5 уроков
👁
2 567
👤
1 724
Закрытый
23.1
Сравнение методологий Agile и Kanban
↗
469
344
16м
16
Закрытый
23.2
Основные профессии, устройство команды и зона ответственности
↗
448
321
4м
14
Закрытый
23.3
Jira и Confluence
↗
495
345
2м
12
Закрытый
23.4
Документация витрины
↗
473
334
1м
11
Закрытый
23.5
Грейды data engineer
↗
682
380
3м
13
24. Разбор основных вопросов на собеседованиях
3 урока
👁
2 056
👤
1 183
Закрытый
24.1
Вопросы на собеседованиях
↗
804
369
33м
31
Закрытый
24.2
Онлайн кодинг и выполнение тестовых заданий
↗
647
352
1м
11
Закрытый
24.3
Как правильно составить резюме?
↗
605
462
0м
6
25. Итоговая работа
2 урока
👁
1 402
👤
379
Открытый
25.1
Обсуждение итогового проекта, его сдача и критерии проверки
↗
1 028
5
17м
33
Закрытый
25.2
Наши другие продукты
↗
374
374
1м
3