Hive 分桶表原理及优化大表 join 实战

2023年11月13日上午5:32 • 大数据 • 阅读 61

一、什么是分桶表

分桶表，比普通表或者分区表有着更为细粒度的数据划分。
举个例子，每天产生的日志可以建立分区表，每个分区在 hdfs 上就是一个目录，这个目录下包含了当天的所有日志记录。
而分桶表，可以进一步对当天的日志按用户划分成多个文件。划分的依据是用户 id 取 hash，然后对分桶数量求余，每个分桶文件在 hdfs 上是一个独立的文件。

二、什么时候可以使用分桶表

分桶表最主要的使用场景是优化大表和大表的 join，其主要原理如下：
（1）如果大表和大表使用 MapReduce 的普通模式，会在 reduce 端 shuffle，那就非常可怕，一个是慢，另一个是容易出异常；
（2）而分桶表将大表的数据划分成一个个小块，分别在 Map 端做 join。
之所以可以这样，是因为分桶表在建表的时候，需要指定分桶的字段，对这个字段值取 hash 后对桶的个数取余数获得一个值，根据这个值将数据放到不同的桶里去。
相同 key 的数据都在一个桶里，在表和表关联的时候就不需要去扫描整个表，只需要去扫描对应桶里的数据即可。
（3）由于不同的数据落到哪个桶是由分桶个数决定的，所以做 Join 的两个分桶表的桶个数必须是相等或者成倍数；
（4）分桶表的每个桶必须要排序，这样可以更高效的做 map join。
这样的 join 称为 SMB map join （Sort Merge Bucket Map Join），核心思想是大表化成小表，分而治之。

三、建立分桶表

分桶表的语法如下：

create table user_order_bucket (
  id bigint,
  name string,
  order_date string,
  goods string,
  price double,
  cnt bigint
)
CLUSTERED BY (name) SORTED BY (name)INTO 5 BUCKETS
ROW FORMAT DELIMITED
FIELDS TERMINATED BY ','
STORED AS orc;

和普通建表语句不同的是，使用下面的语句来指定分桶字段和分桶个数：
CLUSTERED BY (name ) INTO 5 BUCKETS

建好之后，需要执行一个 insert into 语句，执行一个 MapReduce 把原始表的数据划分到分桶表的不同桶中。
下面 user_order 是原始表，是 orc 格式，有 250w 数据，只有一个文件，30M。

insert overwrite table user_order_bucket select * from user_order;

执行之后，分桶表的 hdfs 如下：

可以看到每个分桶是一个文件，每个文件大概 5-6M

四、使用分桶表来优化 join

下面的开关需要打开以支持分桶表

set hive.auto.convert.sortmerge.join=true;
set hive.optimize.bucketmapjoin = true;
set hive.optimize.bucketmapjoin.sortedmerge = true;

然后执行一个 join 的 SQL 来验证

select t1.name,
       t1.order_date
  from user_order_bucket t1
  join user_order_bucket2 t2
    on t1.name = t2.name

首先是未开启以上三个参数的执行计划，这里不贴执行计划了，是正常的 MapReduce；
开启了以上三个参数后，发现是走的 Sorted Merge Bucket Map Join 了。

来执行一下看一下效果，把执行结果写入到另一个临时表中

insert overwrite table user_order_result
select t1.name,
       t1.order_date
  from user_order_bucket t1
  join user_order_bucket2 t2
    on t1.name = t2.name;

由于本人的集群比较low，一共就 3G内存，6个 cpu
直接跑 MapReduce 的耗时为：
568,967,965 rows affected (590.048 seconds)

使用分桶表 map join 的耗时为：
568,967,965 rows affected (425.187 seconds)

效果不是特别显著，数据量越大，使用分桶表 map join 的效果越好。

Original: https://blog.csdn.net/qq_24434251/article/details/124520049
Author: KK架构
Title: Hive 分桶表原理及优化大表 join 实战

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/818100/

转载文章受原作者版权保护。转载请注明原作者出处！

大数据

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

Springboot 整合 JWT + Redis 实现双Token 校验Demo（简单实现）

大数据 2023年11月15日
0049
JVM 常用参数设置（针对 G1GC）

=========================================================== -XX 开头，这些是 JVM 的所有实现都支持的最常用的选…

大数据 2023年5月28日
0088
《Sequence to Sequence Learning with Neural Networks》论文阅读

读书笔记及总结（一）提出的背景虽然传统的DNN神经网络拟合效果很好，但是只能应用于输入和目标可以用固定维度向量进行合理编码的问题上，而无法在机器翻译上取得很好的效果。即DNN在…

大数据 2023年5月28日
00115
hutool工具类常用API整理

前言官网戳这里 hutool是作者的一个自造词，hu tool，hu指的是他的前公司，谐音：糊涂，意为”万事都作糊涂观，无所谓失，无所谓得”，tool就是…

大数据 2023年6月3日
0096
Kafka集群管理工具kafka-manager的安装使用

一.kafka-manager简介 kafka-manager是目前最受欢迎的kafka集群管理工具，最早由雅虎开源，用户可以在Web界面执行一些简单的集群管理操作。具体支持以下内…

大数据 2023年5月28日
00102
软件智能：aaas系统中AI众生的“世”和“界” 之1-AI区划的求实所据和得名所依

本篇是” AI众生的’世’和’界’”篇的进一步描述。链接如下：软件智能：aaas系统中AI众生的”世&#8…

大数据 2023年5月28日
00114
大数据生态集群官方文档链接

Zookeeper官网地址：https://zookeeper.apache.org/ Hive官网地址：http://hive.apache.org/ Flume 官网地址：ht…

大数据 2023年6月3日
00106
CentOS下ISCSI共享存储配置

配置iscsid.conf文件: [root@node1 ~]# vim /etc/iscsi/iscsid.conf 取消注释以下配置项，并填写用户名和密码 [En] Uncom…

大数据 2023年5月27日
0081
sqlite3数据库

嵌入式数据库sqlite3 1.数据库基本概念数据能够输入计算机并能被计算机程序识别和处理的信息集合数据库数据库是在数据库管理系统和控制之下，存放在存储介质上的数据集合。2.常用的…

大数据 2023年11月11日
0062
Redis实操(四)——Redis节点高可用之Cluster集群搭建

大数据 2023年11月15日
0063
03-Linux上软件的安装

二、软件安装 2.1、软件安装的方式介绍在Linux系统中，安装软件的方式主要有四种，这四种安装方式的特点如下：安装方式特点二进制发布包安装软件已经针对具体平台编译打包发…

大数据 2023年5月27日
00115
SQLite数据库的创建与增删改查

1.主界面布局设计（ layout .xml ) 主界面布局中放置3个按钮，分别是”查询／删除”，”修改”，”添加&#8…

大数据 2023年11月10日
0047
Mac CasRel模型代码复现 A Novel Cascade Binary Tagging Framework for Relational Triple Extraction

一、创建虚拟环境要Python37的环境，为了避免不同环境下的依赖相互影响，所以创建一个新的py环境，我用的是conda，命令如下： conda create -n casrel…

大数据 2023年5月28日
00110
JDBC——增删改查及开启事务操作

1.在JDBC中进行对mysql的添加数据 public void test() throws SQLException { 2.在JDBC中进行对mysql的修改/更新数据 3….

大数据 2023年6月3日
0087
直播预告｜走好数据中台最后一公里，数据服务API是数据中台的标配

原文链接：直播预告｜走好数据中台最后一公里，数据服务 API 是数据中台的标配一、课程介绍数据服务 API 作为数据统一服务平台建设的最上层，能够将数据仓库数据以服务化…

大数据 2023年5月26日
0093
MySQL向SQLite的数据库迁移（SQL文件转存为DB文件）

目录 0.准备工具 1.将数据从MySQL导出 * – + * – 1.1 新建MySQL连接 – 1.2 新建MySQL数据库 –…

大数据 2023年11月10日
0053

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

Hive 分桶表原理及优化大表 join 实战

一、什么是分桶表

二、什么时候可以使用分桶表

三、建立分桶表

四、使用分桶表来优化 join

大家都在看