赞
踩
Spark UI是反映一个Spark作业执行情况的web页面
,用户可以通过Spark UI观察Spark作业的执行状态,分析可能存在的问题。
进入首页后,我们可以看到当前spark的版本号,比如我这里截图的就是3.0.2。
对于在运行的
对于已完成的
不管是运行中还是已完成,都可以看到有几个模块,下面我们一起来看一下(运行中相比已完成会多一个Active Jobs)
transformation:返回RDD
action:无返回值或者返回不是RDD
提交的用户
,用以进行权限控制与资源分配。总的运行时间
调度策略
,Job Scheduling已完成Job的基本信息
,如想查看某一个Job的详细情况,可点击对应Job进行查看。正在运行的Job的基本信息。
时间线会显示Executor加入和退出的时间点,以及job执行的起止时间。
Status
Associated SQL Query
DAG Visualization
DAG图
非常重要
。可以理解为一个job包含多个stage。每个stage下可以查看所有task的运行情况,可以观察数据倾斜
、大量溢写等现象。Stages页面会显示作业所有的stage信息,不区分stage属于哪个job。
点击详情中的链接可以跳转到对应的stage详情页面,如图:
Total time across all tasks
Locality Level Summary
移动存储不如移动计算
),所以通常情况下,会把代码发送到数据所在节点,而不是把数据拉取到代码所在节点。Input Size/Records
读取数据表或者合并文件的stage才会有
Output Size/Records
生成最终结果数据的stage才会有
Shuffle Write Size/Records
有shuffle过程中的“map”操作的stage才会有
Shuffle Read Size/Records
有shuffle过程中的“reduce”操作的stage才会有
DAG Visualization
Show Additional Metrics:
Event Timeline:
Summary Metrics for xxxx Completed Tasks
所有task的统计信息
重点关注下面几个指标
Aggregated Metrics by Executor:
Tasks
Listing leaf files and directories for xxx paths
从文件系统中查询数据的元数据并将其缓存到内存中
查看参数有没设置对
。
比如参数后面用中文“;”而不是英文“;”
比如参数的“=”两边有空格
比如参数写错误
spark.executor.memory+spark.yarn.executor.memoryOverhead
)。Spark sql才有,展示sql的执行情况。
可以查看SQL执行计划的细节,它提供了SQL查询的DAG以及显示Spark如何优化已执行的SQL查询的查询计划。
每个色块代表了一种算子
色块代表什么呢
最下面有个detail,可以查看sql执行计划,包括Parsed Logical Plan、Analyzed Logical Plan、Optimized Logical Plan、Physical Plan
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。