【大数据之路12】Spark 执行引擎 SparkCore

作者：小蓝xlanll | 2024-06-16 16:46:58

踩

spark 执行引擎

Spark 执行引擎 SparkCore

1. Spark 概述
- 1. Spark 简介
- 2. 学习 Spark 的必要性
- 3. SparkCore
- 4. SparkSQL
- 5. SparkStreaming
2. Spark 体系架构
- 1. Spark 架构图
- 2. 相关说明
- - 1. 服务器端
  - 2. 客户端 driver program
3. Spark 部署说明
- 1. 部署模式
- 2. 部署方案
4. Spark HA（高可用）的实现方式
- 1. 基于文件系统的单点恢复
- 2. 基于 ZooKeeper
5. 执行 Spark 程序
- 1. Spark Submit
- 2. Spark Shell
- 3. WordCount程序
6. Spark 运行机制及原理分析
- 1. WordCount 程序执行流程分析
- 2. Spark 提交任务流程
7. Spark 算子【函数】
- 1. RDD（类）【重要】
- - 1. RDD 概述
  - 2. RDD 基本原理
- 2. RDD 特性
- 3. 创建 RDD
- - 1. 通过外部文件创建 `sc.textFile()`
  - 2. 通过并行化创建 `sc.parallelize()`
- 4. RDD 类型
- 5. RDD 的缓存机制
- - 1. 缓存机制概述
  - 2. 缓存机制案例
- 6. RDD 容错机制：检查点
- 7. RDD 的依赖关系和 Spark 任务中的 Stage
- - 1. RDD 的依赖关系
  - 2. Spark 任务中的 Stage（阶段）
8. Spark RDD 高级算子
- 1. mapPartitionsWithIndex
- 2. aggregate 聚合操作
- 3. aggregateByKey 求和操作
- 4. 重分区：coalesce 与 repartition
- 5. 其他高级算子
9. Spark Shuffle
- 1. 概述
- 2. Shuffle Write
10. Job、Stage、Task 分别如何划分
11. Spark 基础编程
- 1. 网站访问量 top3 的两个网页
- 2. 图书每天平均销量
- 3. 二次排序
- 4. TopN---Top5

1. Spark 概述

1. Spark 简介

Spark 是一种快速、通用、可扩展的大数据分析引擎，Spark 生态系统是一个包含多个子项目的集合，其中包含 SparkSQL、Spark Streaming、GraphX、MLlib 等子项目，Spark 是基于内存的大数据并行计算框架。Spark 基于内存计算，提高了在大数据环境下数据处理的实时性，同时保证了高容错性和高可伸缩性，允许用户将 Spark 部署在大量廉价硬件之上，形成集群。

2. 学习 Spark 的必要性

MapReduce 的缺点与不足

Hadoop3.0 之前：MapReduce 的核心过程是 Shuffle，在整个 Shuffle 过程中至少会产生 6 次 IO 操作，严重影响性能
Hadoop3.0 之后优化后，号称效率比 Spark 快
中间结果输出：基于 MapReduce 的计算引擎通常会将中间结果输出到磁盘上进行存储和容错，另外，当一些查询（如 Hive）翻译到 MapReduce 任务时往往会产生多个 Stage（阶段），而这些串联的 Stage 又依赖于底层文件系统（如 HDFS）来存储每一个 Stage 的输出结果，而 I/O 的效率往往较低，从而影响了 MapReduce 的运行速度

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/小蓝xlanll/article/detail/727436