Hive/MaxCompute SQL性能优化(二)：如何定位数据倾斜

2023年11月12日下午6:00 • 大数据 • 阅读 35

SQL性能优化系列：

前言

前面的文章我们简单介绍了什么是数据倾斜，今天我们来讲一下如何定位是否出现了数据倾斜，以及是在什么阶段出现的数据倾斜。

作业回放

在Maxcompute的Logview中是可以回放作业执行的耗时的，当然也可以在下面直接看到各阶段的执行耗时，若发现某个阶段的执行时间特别长，且点击它之后，下面的实例中出现了Long-tails/Data-Skews，或某个实例的执行比其他实例慢很多。则大概率是出现了数据倾斜。

对于Hive，则可以在日志中看是否在某个阶段耗时较长一直卡在99%。

数据量对比

第二种方式是对比该输出表的数据量，相比过去每天是否出现大幅的波动，如之前每天10万数据，今天突然变成1亿条，那就很有可能是出现了笛卡尔积的情况导致数据放大。

定位节点

在作业回放的内容中，我们可以清楚的看到，作业在执行的过程中是在哪个阶段(map/join/reduce)出现的性能问题。

定位数据

针对不同的阶段，分析的方式也不一样。

Map阶段：在map阶段出现倾斜的原因一种是上游数据分布不均，小文件过多。另一种情况是在map端聚合的时候某些mapper读取的文件中某些值量级过多导致长尾。

Join阶段：Join阶段最容易出现数据倾斜，大部分情况是在关联的时候出现热点值导致数据倾斜。或者是大小表关联导致的数据倾斜。

Reduce阶段：在map阶段聚合导致key值分布不均匀。join阶段产生很多null值被分发到同一个reduce实例导致数据倾斜。多次使用distinct导致数据倾斜。动态分区导致小文件过多产生数据倾斜。

解决思路

在上面我们可以看到无论是map,join还是reduce都有很多种出现数据倾斜的原因，针对不同的产生原因有不同的优化方式。

如：列剪裁，过滤脏数据，预处理，mapjoin，调整参数增加资源等等。

在后面的文章中我们会逐一介绍上述情况下出现的数据倾斜的优化策略和方式，敬请期待。

如果我的文章对你有帮助，请帮忙转发/点赞/收藏，谢谢！

Original: https://blog.csdn.net/wsdc0521/article/details/127271728
Author: 王义凯_Rick
Title: Hive/MaxCompute SQL性能优化(二)：如何定位数据倾斜

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/817644/

转载文章受原作者版权保护。转载请注明原作者出处！

大数据

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

docker-java 用Java操作docker创建容器并运行运行容器

大数据 2023年11月15日
0034
Kafka学习笔记——存储结构

1，由cdh安装的kafka的默认存储路径如图所示在/var/local/kafka/data，一般会进行修改 kafka配置参考：apache kafka系列之server.pr…

大数据 2023年5月28日
00140
org.springframework.data.redis.serializer.SerializationException: Cannot deserialize； nested excepti

大数据 2023年11月15日
0034
Hive概念、架构、启动方式、基本命令

大数据 2023年11月13日
0049
Flink Catalog

Catalog 提供了元数据信息，例如数据库、表、分区、视图以及数据库或其他外部系统中存储的函数和信息。数据处理最关键的方面之一是管理元数据。元数据可以是临时的，例如临时表、或…

大数据 2023年6月3日
0060
Kafka本身的架构

Producer(生产者)生产消息以Topic(主题)为单位进行存储.消费者组订阅主题消费内容. Producer生产者写数据可能写到TopicA-Partition0 分区 ,也…

大数据 2023年5月25日
0067
Linux安装Nginx并配置启动命令

镜像下载、域名解析、时间同步请点击阿里云开源镜像站安装前准备工作因为Nginx依赖于gcc的编译环境，所以，需要安装编译环境来使Nginx能够编译起来 yum install …

大数据 2023年5月27日
0081
python中sqlite的基本调用和数据库类的封装案例(2)

前面的博文我们介绍了python中sqlite封装的基本操作，完成了类的数据库名参数化封装，这篇博文将继续对数据库典型方法增删改查的具体封装逐一介绍。一、数据表名的参数化这里，我…

大数据 2023年11月11日
0041
不想工作就想创业？我劝你看完这档综艺再决定

文|螳螂观察作者|图霖新年还没到，部分打工人已经在提前”过冬”了。近日，阿里、爱奇艺等大厂裁员的新闻接连冲上热搜。不少以为捧着”大厂铁饭碗…

大数据 2023年5月26日
0070
SQL插入新条目条件处理：sqlite “insert or replace“ 和 “insert or ignore“

先说说两个的区别： “insert or ignore”：如果表中不存在就插入，存在则忽略当前新数据；“insert or replace&#8…

大数据 2023年11月11日
0031
Android备忘录（笔记）简单实现有源码注释详细

提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录一、首先创建保存数据的表二、主界面 * 2.1 activity_main.xml 三、:EditAc…

大数据 2023年11月11日
0034
KBQA中用到强化学习的相关论文

最近对用到强化学习的论文进行了简单整理，方便之后查看。我主要是分为两类统计：基于语义解析的方法和基于信息检索的方法。具体的如下：基于语义解析的KBQA方法 1. 原论文：Grap…

大数据 2023年5月28日
0059
【Tanzu 社区版=TCE】 Mac 笔记本快速部署安装体验-(二)

【Tanzu 社区版=TCE】 Mac 笔记本快速部署安装体验-(二) 原创 Freddy_Shen2022-06-19 00:38:44©著作权文章标签 docker 云原生 …

大数据 2023年5月26日
0076
2016 ACM赛后总结

已经到6.30号了哎~ 比赛是6.5号的，被推迟了好久的总结现在发吧，因为我怕我再不写就真的会忘掉…… 6.3号晚，星期五，我们一行人乘坐济南的火车，然…

大数据 2023年5月24日
0060
2_Spark Streaming 数据接收器

1. TCP Source import org.apache.spark.SparkConf import org.apache.spark.streaming.dstream….

大数据 2023年6月3日
00122

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30