当前位置:   article > 正文

【大数据之路12】Spark 执行引擎 SparkCore

spark 执行引擎

Spark 执行引擎 SparkCore

1. Spark 概述

1. Spark 简介

​ Spark 是一种快速、通用、可扩展的大数据分析引擎,Spark 生态系统是一个包含多个子项目的集合,其中包含 SparkSQLSpark StreamingGraphXMLlib 等子项目,Spark 是基于内存的大数据并行计算框架。Spark 基于内存计算,提高了在大数据环境下数据处理的实时性,同时保证了高容错性和高可伸缩性,允许用户将 Spark 部署在大量廉价硬件之上,形成集群。

2. 学习 Spark 的必要性

MapReduce 的缺点与不足

  • Hadoop3.0 之前:MapReduce 的核心过程是 Shuffle,在整个 Shuffle 过程中至少会产生 6 次 IO 操作,严重影响性能
  • Hadoop3.0 之后优化后,号称效率比 Spark 快
  • 中间结果输出:基于 MapReduce 的计算引擎通常会将中间结果输出到磁盘上进行存储和容错,另外,当一些查询(如 Hive)翻译到 MapReduce 任务时往往会产生多个 Stage(阶段),而这些串联的 Stage 又依赖于底层文件系统(如 HDFS)来存储每一个 Stage 的输出结果,而 I/O 的效率往往较低,从而影响了 MapReduce 的运行速度
声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/小蓝xlanll/article/detail/727436
推荐阅读
相关标签
  

闽ICP备14008679号