Hive调优策略之SQL优化

2023年11月12日上午11:43 • 大数据 • 阅读 59

列裁剪是在查询时只读取需要的列；
分区裁剪就是只读取需要的分区。

简单的说：select 中不要有多余的列，坚决避免 select * from tab;查询分区表，不读多余的数据；

select uid, event_type, record_data
    from calendar_record_log
  where pt_date >= 20190201 and pt_date

HiveQL中的order by与其他关系数据库SQL中的功能一样，是将结果按某字段全局排序，这会导致所有map端数据都进入一个reducer中，在数据量大时可能会长时间计算不完。

如果使用sort by，那么还是会视情况启动多个reducer进行排序，并且保证每个reducer内局部有序。为了控制map端数据分配到reducer的key，往往还要配合distribute by 一同使用。如果不加 distribute by 的话，map端数据就会随机分配到reducer。

当要统计某一列的去重数时，如果数据量很大，count(distinct) 会非常慢。原因与order by类似，count(distinct)逻辑只会有很少的reducer来处理。此时可以用group by 来改写：

-- 原始SQL
select count(distinct uid) from tab;

-- 优化后的SQL
select count(1)
    from (select uid from tab group by uid) tmp;

这样写会启动两个MR job（单纯distinct只会启动一个），所以要确保数据量大到启动job的overhead远小于计算耗时，才考虑这种方法。当数据集很小或者key的倾斜比较明显时，group by还可能会比distinct慢。

group by时，如果先起一个combiner在map端做部分预聚合，可以有效减少shuffle数据量。

-- 默认为true
set hive.map.aggr = true

Map端进行聚合操作的条目数

set hive.groupby.mapaggr.checkinterval = 100000

通过 hive.groupby.mapaggr.checkinterval 参数也可以设置map端预聚合的行数阈值，超过该值就会分拆job，默认值10W。

group by时如果某些key对应的数据量过大，就会发生数据倾斜。Hive自带了一个均衡数据倾斜的配置项 hive.groupby.skewindata ， 默认值false。其实现方法是在group by时启动两个MR job。第一个job会将map端数据随机输入reducer，每个reducer做部分聚合，相同的key就会分布在不同的reducer中。第二job再将前面预处理过的数据按key聚合并输出结果，这样就起到了均衡的效果。但是，配置项毕竟是死的，单纯靠它有时不能根本上解决问题，建议了解数据倾斜的细节，并优化查询语句。

普通连接，在SQL中不特殊指定连接方式使用的都是这种普通连接。
缺点：性能较差(要将数据分区，有shuffle)
优点：操作简单，普适性强
map端连接，与普通连接的区别是这个连接中不会有reduce阶段存在，连接在map端完成
适用场景：大表与小表连接，小表数据量应该能够完全加载到内存，否则不适用
优点：在大小表连接时性能提升明显

注意：

Hive 0.6 的时候默认认为写在select 后面的是大表，前面的是小表，或者使用 mapjoin(map_table) 提示进行设定。select a., b.* from a join b on a.id = b.id【要求小表在前，大表之后】
hive 0.7 的时候这个计算是自动化的，它首先会自动判断哪个是小表，哪个是大表，这个参数由（hive.auto.convert.join=true）来控制，然后控制小表的大小由（ hive.smalltable.filesize=25000000）参数控制（默认是25M），当小表超过这个大小，hive 会默认转化成common join。
Hive 0.8.1， hive.smalltable.filesize => *hive.mapjoin.smalltable.filesize

缺点：使用范围较小，只针对大小表且小表能完全加载到内存中的情况。

分桶连接：Hive 建表的时候支持hash 分区通过指定clustered by (col_name,xxx )into number_buckets buckets 关键字.当连接的两个表的join key 就是bucketcolumn 的时候，就可以通过设置hive.optimize.bucketmapjoin= true 来执行优化。

原理：通过两个表分桶在执行连接时会将小表的每个分桶映射成hash表，每个task节点都需要这个小表的所有hash表，但是在执行时只需要加载该task所持有大表分桶对应的小表部分的hash表就可以，所以对内存的要求是能够加载小表中最大的hash块即可。

注意点：小表与大表的分桶数量需要是倍数关系，这个是因为分桶策略决定的，分桶时会根据分桶字段对桶数取余后决定哪个桶的，所以要保证成倍数关系。

优点：比map join对内存的要求降低，能在逐行对比时减少数据计算量（不用比对小表全量）
缺点：只适用于分桶表

map join特别适合大小表join的情况。Hive会将build table和probe table在map端直接完成join过程，消灭了reduce，效率很高。

select a.event_type, b.upload_time
from calendar_event_code a
inner join (
    select event_type, upload_time from calendar_record_log
    where pt_date = 20190225
) b on a.event_type = b.event_type;

map join的配置项是 hive.auto.convert.join，默认值true。
当build table大小小于 hive.mapjoin.smalltable.filesize会启用map join，默认值25000000（约25MB）。还有 hive.mapjoin.cache.numrows ，表示缓存uild table的多少行数据到内存，默认值25000。

map join对分桶表还有特别的优化。由于分桶表是基于一列进行hash存储的，因此非常适合抽样（按桶或按块抽样）。它对应的配置项是

hive.optimize.bucketmapjoin

这个配置与 group by 的倾斜均衡配置项异曲同工，通过 hive.optimize.skewjoin来配置，默认false。

如果开启了，在join过程中Hive会将计数超过阈值 hive.skewjoin.key（默认100000）的倾斜key对应的行临时写进文件中，然后再启动另一个job做map join生成结果。通过 hive.skewjoin.mapjoin.map.tasks 参数还可以控制第二个job的mapper数量，默认10000。

日志类数据中往往会有一些项没有记录到，其值为null，或者空字符串、-1等。如果缺失的项很多，在做join时这些空值就会非常集中，拖累进度【备注：这个字段是连接字段】。

若不需要空值数据，就提前写 where 语句过滤掉。需要保留的话，将空值key用随机方式打散，例如将用户ID为null的记录随机改为负值：

select a.uid, a.event_type, b.nickname, b.age
from (
    select
        (case when uid is null then cast(rand()*-10240 as int) else uid end) as uid,
event_type from calendar_record_log
    where pt_date >= 20190201
      ) a left outer join (
        select uid,nickname,age from user_info where status = 4
) b on a.uid = b.uid;

如果倾斜的 key 有实际的意义，一般来讲倾斜的key都很少，此时可以将它们单独抽取出来，对应的行单独存入临时表中，然后打上一个较小的随机数前缀（比如0~9），最后再进行聚合。

不要一个Select语句中，写太多的Join。一定要了解业务，了解数据。(A0-A9)分成多条语句，分步执行；(A0-A4; A5-A9)；先执行大表与小表的关联；

通常情况下，作业会通过输入数据的目录产生一个或者多个map任务。主要因素包括：

输入文件总数
输入文件大小
HDFS文件块大小

map越多越好吗。当然不是，合适的才是最好的。

如果一个任务有很多小文件（<< 128M），每个小文件也会被当做一个数据块，用一个 Map Task 来完成。
一个 Map Task 启动和初始化时间 >> 处理时间，会造成资源浪费，而且系统中同时可用的map数是有限的。

对于小文件采用的策略是合并。

每个map处理接近128M的文件块，会有其他问题吗。也不一定。

有一个125M的文件，一般情况下会用一个Map Task完成。假设这个文件字段很少，但记录数却非常多。如果Map处理的逻辑比较复杂，用一个map任务去做，性能也不好。

对于复杂文件采用的策略是增加 Map 数。

computeSliteSize(max(minSize, min(maxSize, blocksize))) = blocksize
minSize : mapred.min.split.size &#xFF08;&#x9ED8;&#x8BA4;&#x503C;1&#xFF09;
maxSize : mapred.max.split.size &#xFF08;&#x9ED8;&#x8BA4;&#x503C;256M&#xFF09;

&#x8C03;&#x6574;maxSize&#x6700;&#x5927;&#x503C;&#x3002;&#x8BA9;maxSize&#x6700;&#x5927;&#x503C;&#x4F4E;&#x4E8E;blocksize&#x5C31;&#x53EF;&#x4EE5;&#x589E;&#x52A0;map&#x7684;&#x4E2A;&#x6570;&#x3002;
&#x5EFA;&#x8BAE;&#x7528;set&#x7684;&#x65B9;&#x5F0F;&#xFF0C;&#x9488;&#x5BF9;SQL&#x8BED;&#x53E5;&#x8FDB;&#x884C;&#x8C03;&#x6574;&#x3002;

reducer数量的确定方法比mapper简单得多。使用参数 mapred.reduce.tasks可以直接设定reducer数量。如果未设置该参数，Hive会进行自行推测，逻辑如下：

参数 hive.exec.reducers.bytes.per.reducer 用来设定每个reducer能够处理的最大数据量，默认值256M
参数 hive.exec.reducers.max 用来设定每个job的最大reducer数量，默认值999（1.2版本之前）或1009（1.2版本之后）
得出reducer数： reducer_num = MIN(total_input_size / reducers.bytes.per.reducer, reducers.max) 即：min(输入总数据量 / 256M, 1009)

reducer数量与输出文件的数量相关。如果reducer数太多，会产生大量小文件，对HDFS造成压力。如果reducer数太少，每个reducer要处理很多数据，容易拖慢运行时间或者造成OOM。

深入理解 Hadoop 的核心能力，对Hive优化很有帮助。Hadoop/Hive 处理数据过程，有几个显著特征：

不怕数据多，就怕数据倾斜
对 job 数比较多的作业运行效率相对比较低，比如即使有几百行的表，多次关联多次汇总，产生十几个jobs，执行也需要较长的时间。MapReduce 作业初始化的时间是比较长的
对sum、count等聚合操作而言，不存在数据倾斜问题
count(distinct) 效率较低，数据量大容易出问题

从大的方面来说，优化可以从几个方面着手

好的模型设计，事半功倍
解决数据倾斜问题。仅仅依靠参数解决数据倾斜，是通用的优化手段，收获有限。开发人员应该熟悉业务，了解数据规律，通过业务逻辑解决数据倾斜往往更可靠
减少 job 数
设置合理的map、reduce task数
对小文件进行合并，是行之有效的提高Hive效率的方法
优化把握整体，单一作业的优化不如整体最优

Original: https://blog.csdn.net/weixin_52851967/article/details/127371719
Author: 悠然予夏
Title: Hive调优策略之SQL优化

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/817387/

转载文章受原作者版权保护。转载请注明原作者出处！

大数据

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

Flink的CEP编程之Pattern API

FlinkCEP 中提供了 Pattern API 用于对输入流数据的复杂事件规则定义，并从事件流中抽取事件结果。包含四个步骤：一.模式定义定义 Pattern 可以是单次执…

大数据 2023年5月25日
0088
基础篇七 Hive-2.3.9安装与配置

目录文章导读 Hive下载 Hive安装修改hive-env.sh 编辑增加hive-site.xml Hive启动初始化Hive 启动参考博文文章导读 Hive是基…

大数据 2023年11月13日
0064
什么是NoSQL及NoSQL四大分类

大数据 2023年11月14日
0037
HDFS、Yarn、Hive…MRS中使用Ranger实现权限管理全栈式实践

摘要：Ranger为组件提供基于PBAC的鉴权插件，供组件服务端运行，目前支持Ranger鉴权的组件有HDFS、Yarn、Hive、HBase、Kafka、Storm和Spark2…

大数据 2023年11月13日
0042
docker部署redis

大数据 2023年11月14日
0043
Flink中Window详解之Window的聚合函数ProcessWindowFunction

Flink中Window详解之Window的聚合函数ProcessWindowFunction 原创 wx62be9d88ce2942022-07-01 17:46:08博主文章分…

大数据 2023年5月25日
0086
知识干货：基础存储服务新手体验营

白嫖的新知识！云服务器ECS 云服务器（Elastic Compute Service，简称ECS）是阿里云提供的性能卓越、稳定可靠、弹性扩展的IaaS（Infrastructu…

大数据 2023年6月3日
00113
面试常遇的打家劫舍问题你学会了吗~

打家劫舍I 问题描述 [TencentCloudSDKException] code:FailedOperation.ServiceIsolate message:service …

大数据 2023年6月3日
0077
玩转SQLite1：SQLite简介与安装

1 SQLite简介 SQLite，是一个C语言库，诞生于2000年，它实现了一个小型、快速、自包含、高可靠性的SQL数据库引擎，与其他数据库管理系统(如SQL Server…

大数据 2023年11月11日
0040
关于kafka定期清理日志后再消费报错kafka.common.OffsetOutOfRangeException的解决

环境： kafka 0.10 spark 2.1.0 zookeeper 3.4.5-cdh5.14.0 公司阿里云测试机，十月一放假前，没有在继续消费，假期过后回来再使用spar…

大数据 2023年5月28日
00118
序列化二叉树

序列化二叉树问题描述 [TencentCloudSDKException] code:FailedOperation.ServiceIsolate message:service…

大数据 2023年6月3日
0073
vite+vue3项目最佳起始点（保姆级）

一、通过云开发平台快速创建初始化应用 1.创建相关应用模版请参考链接：去中心化的前端构建工具 — Vite 2.完成创建后就可以在github中查看到新增的Vite仓库二、 …

大数据 2023年5月27日
00120
python3 django==1.11 使用sqlcipher 加密sqlite3

SQLCipher在CentOS 上的编译安装下载sqlcipher git clone https://github.com/rigglemania/pysqlcipher3….

大数据 2023年11月10日
0037
kafka 消费数据时出现error：java.net.UnknownHostException xxxx.xxxx.xxxx

在Linux中安装好kafka后，消费数据时如果报错：java.net.UnknownHostException xxxx.xxxx.xxxx 此时，原因主要是主机名和地址不对应造…

大数据 2023年5月28日
0094
彻底搞懂BPE（Byte Pair Encode）原理（附代码实现）

Byte Pair Encoding 既然你查到这了，就不解释BPE是干啥的了，直接上原理！核心思想迭代合并出现频率高的字符对。例子 1.准备一个语料库（corpus），并统…

大数据 2023年5月28日
00126
PC微信逆向–定位sqlite3_exec和数据库句柄

写在前面最近在做PC端微信逆向，搞定了基本的收发消息，通讯录获取等，这期间遇到一个小小的问题，从通讯录获取到的内容不全，除非登录后手动点击过某个好友，不然获取不到头像、V3等，所…

大数据 2023年11月10日
0059

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

Hive调优策略之SQL优化

大家都在看