[平台建设] Spark任务的诊断调优

2023年5月26日下午11:09 • 大数据 • 阅读 83

平台目前大多数任务都是Spark任务，用户在提交Spark作业的时候都要进行的一步动作就是配置spark executor 个数、每个executor 的core 个数以及 executor 的内存大小等，这项配置目前基本靠用户个人经验，在这个过程中，有的用户就会设置非常不合理，比如配置的内存非常大，实际上任务运行时所占用的内存极少. 基于此，希望能有工具来针对任务进行分析，帮助用户来监控和调优任务，并给出一些建议，使任务更加有效率，同时减少乱配资源影响其他用户任务运行的情况。

Dr. Elephant介绍

通过调研，发现一个开源项目 Dr. Elephant 基本与想要达成目标一致。

DR.Elephant 介绍：

Dr. Elephant is a job and flow-level performance monitoring and tuning tool for Apache Hadoop and Apache Spark

Dr功能介绍：

接下来就是需要了解下Dr的架构，因为我们有些定制化的需求，所以需要了解下架构，以及阅读源码进行相关改造适配。

Dr. Elephant 的系统架构如下图。主要包括三个部分：

数据采集：数据源为 Job History

诊断和建议：内置诊断系统

[En]

Diagnosis and recommendation: built-in diagnostic system

存储和展示：MySQL 和 WebUI

Dr.Elephant定期从Hadoop平台的YARN资源管理中心获取近期所有的任务，这些任务既包含成功的任务，也包含那些失败的任务。每个任务的元数据，例如任务计数器、配置信息以及运行信息都可以从Hadoop平台的历史任务服务端获取到。一旦获取到了任务的元数据，Dr.Elephant就基于这些元数据运行启发式算法，然后会产生一份该启发式算法对该任务性能的诊断报告。根据每个任务的执行情况，这份报告会为该任务标记一个待优化的严重性级别。严重性级别一共分为五级，报告会对该任务产生一个级别的定位，并通过级别来表明该任务中存在的性能问题的严重程度。

启发式算法做的具体事情是：

[En]

The specific thing that the heuristic algorithm does is:

获取数据
量化计算打分
将得分与不同诊断级别的门槛进行比较

[En]

compare the score with the threshold of different diagnostic levels*
给出诊断等级

源码解析与改造

首先我们要知道Dr整体的运行流程是怎么样的？

因为我们只需要关注Spark任务,下面主要介绍下Spark指标如何采集?

上面我们已经知道Dr执行的大致流程, 我们只采集spark任务, 所以不用太多额外的代码和抽象.

只需几个关键步骤即可实现转型：

[En]

Only a few key steps are needed to transform:

1.首先还是通过yarn api 获取执行的job, 我们只需要对ExecutorJob直接使用org.apache.spark.deploy.history.SparkFSFetcher#fetchData方法, 获取eventlog, 并对eventlog进行重放解析

采集后的主要信息:

采集stage相关指标信息
采集app任务配置、executor个数、核数等,执行开始时间、结束时间、耗时等

改造后整体流程如下:

规则平台进行配置, 有了采集数据, 根据规则对相关指标定级, 并以不同颜色区分展示,并给出相关诊断意见.

本文主要根据平台用户平常提交的spark任务思考,调研引入Dr. Elephant, 通过阅读Dr 相关源码, 明白Dr 执行整体流程并对代码进行改造,适配我们的需求.最终转变为平台产品来对用户的Spark任务进行诊断并给出相关调优建议.

Original: https://www.cnblogs.com/bigdata1024/p/15754575.html
Author: chaplinthink
Title: [平台建设] Spark任务的诊断调优

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/522621/

转载文章受原作者版权保护。转载请注明原作者出处！

一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

[平台建设] Spark任务的诊断调优

Dr. Elephant介绍

源码解析与改造

大家都在看