mapreduce 数据倾斜解决方法

2023年11月13日下午1:13 • 大数据 • 阅读 39

下面列举了一些常见的导致数据倾斜的场景。

场景 1 ：当一个大表和一个小表 join 时，如果小表的 key 较集中，将会引起大表中的数据被分发到一个或者少数几个 Reducer 任务中，导致数据分布不均匀。
场景 2：在 group by 时，如果分组的维度太少，维度的值分布不均匀，将导致数据分布不均匀。
场景 3：当大表与大表关联时，在关联的条件字段中，其中一个表的空值、 null 值过多，将导致数据分布不均匀。

针对数据倾斜，业界一般有以下几种解决方案。

1 . 调节参数
可以通过修改 hive.map.aggr 和 hive.groupby.skewindata 参数同时配置为 true，在 Mapper 端进行聚合操作，当发生数据倾斜时进行负载均衡。所生成的查询计划会有两个 MR 任务。在第一个 MR 任务中， Mapper 阶段的输出结果集合会被随机分布到 Reducer 阶段中，每个 Reducer 都进行部分聚合操作，并输出结果。这样处理的结果是相同的 Key 可以被分发到不同的 Reducer 中，从而达到负载均衡的目的。在第二个 MR 任务中， Mapper 根据第一个 MR 任务预处理后的数据结果再按照 key输出给 Reducer，这个过程可以保证相同的 key被分布到同一个 Reducer 中。经过这两轮 MR 任务最后完成最终的聚合操作。相关的参数设置如下：

hive.map.aggr=true
hive.groupby.skewindata=true

2. 优化SOL语旬

使用 mapjoin：让小的维度表（建议在 20000 条记录以下〉先写入内存，并按顺序扫描大表完成 join。这种方式比较适用于大表和小表的 join。
空值优化：可以将空值的 key 变成一个字符串加上随机数，把倾斜的数据分布到不同的Reducer 中。也可以对空值进行单独处理，然后再和其他非空值的计算结果进行合并。
group by 优化：采用 sum（）结合 group by 的方式替换 count(distinct）来完成计算。

3 特殊情况特殊处理
在业务逻辑优化效果不太好的情况下，有些时候可以将倾斜的数据单独拿出来处理，最后再进行 union。为了方便理解，下面列举几个业务场景来进行说明。
案例 1 ：空值产生的数据倾斜问题。
场景：比如在日志中，通常会发生信息丢失的问题。假如日志中的 order_id 存在丢失情况，如果将其中的 order_id 和订单表的 order_id 关联，就会出现数据倾斜。
解决方法 1: order_id 为空值的则不参与关联，用 union all 合并数据，代码所示

解决方法 2：为空值分配一个随机值
mapreduce 数据倾斜解决方法

案例总结：解决方法 2 比方法 1 的执行效率更高，不但 I/O 少了，而且作业数也少了。在解决方法 1中 log 读取两次， job 数是 2：在解决方法 2 中 job 数是 1。这种优化适合由于无效 id （比如－99、”、 null 等无效字符组合）产生的倾斜问题。把空值的 key 变成一个字符串加上随机数，就能把倾斜的数据分布到不同的 Reducer 中，从而解决数据倾斜问题。

案例 2：小表不小不大，怎么用 mapjoin 解决数据倾斜问题。
使用 mapjoin 解决小表（记录数少）关联大表的数据倾斜问题。这种方法使用的频率非常高，但是如果小表很大，大到 mapjoin 会出现 bug 或异常，这时就需要特别处理了。例如：

orders 表有超过 600 万条的记录，把 orders 分发到所有的 Mapper 中也有不小的开销，而且 ma阳oin 不支持这么大的表。如果用普通的 join，又会碰到数据倾斜的问题。那么解决方法如下代码所示

select /*+mapjoin(t)*/*  from log a
left outer join (
select /*+mapjoin(c)*/b*
from ( select order_id from log group by order_id) c
join orders b
on c.order_id = d.order_id
) t
on a.order_id = t.order_id

  &#x4E0A;&#x6240;&#x8FF0;&#xFF0C;&#x89E3;&#x51B3;&#x6570;&#x636E;&#x503E;&#x659C;&#x95EE;&#x9898;&#x5C31;&#x662F;&#x8981;&#x5C06; Mapper &#x9636;&#x6BB5;&#x7684;&#x8F93;&#x51FA;&#x6570;&#x636E;&#x66F4;&#x5747;&#x5300;&#x5730;&#x5206;&#x5E03;&#x5230; Reducer &#x4E2D;&#xFF0C;&#x53EF;&#x4EE5;&#x901A;&#x6539;&#x53D8; job &#x7684;&#x6B65;&#x9AA4;&#x3001;&#x5904;&#x7406; key &#x503C;&#x7B49;&#x65B9;&#x5F0F;&#x6765;&#x5B9E;&#x73B0;&#x3002;&#x6570;&#x636E;&#x503E;&#x659C;&#x591A;&#x6570;&#x662F;&#x7531;&#x4E8E;&#x5F00;&#x53D1;&#x4EBA;&#x5458;&#x758F;&#x5FFD;&#x5F15; &#x8D77;&#x7684;&#xFF0C;&#x95EE;&#x9898;&#x672C;&#x8EAB;&#x5E76;&#x4E0D;&#x662F;&#x5F88;&#x590D;&#x6742;&#x3002;

Original: https://blog.csdn.net/qq_31024251/article/details/124596821
Author: 抠jue大仙
Title: mapreduce 数据倾斜解决方法

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/818413/

转载文章受原作者版权保护。转载请注明原作者出处！

大数据

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

Hbase高手之路 — 第七章 — HBase和Hive（类sql）的整合

大数据 2023年11月13日
0042
关于Hive中的存储格式及压缩格式详解

最近面试，遇到了关于Hive的数据存储格式的问题，回答不尽人意，抽时间总结多看看关于Hive存储格式和压缩格式的内容。 Hive底层数据是以HDFS文件的形式存储在Hadoop中的…

大数据 2023年11月12日
0037
Hive修改Parquet类型表字段几种问题处理

hive中的表数据存储类型可以使用parquet，优势在于列式存储方便压缩，加快查询速度，在实际生产环境中，往往不会有字段命名或类型修改的数仓宽表才会使用。临时或短期需求使用pa…

大数据 2023年11月13日
0036
Jimmer彻底完成了，一个面向Java/Kotlin的革命性ORM

大数据 2023年11月15日
0032
基于docker镜像centos:7 镜像制作自定义的centos及tomcat/php/nginx镜像

基于 centos:7 镜像制作自定义mycentos:v1交互式运行centos:7docker run -it –name=mycentos 在运行的mycento…

大数据 2023年5月28日
0055
基于QxOrm的Orm数据库基本操作

基于QxOrm的Orm数据库基本操作前言 Orm：对象关系映射（Object Relational Mapping，简称ORM）模式是一种为了解决面向对象与关系数据库存在的互不匹…

大数据 2023年11月11日
0032
SqlLite数据库操作

SqlLite数据库 1.作用 2.使用规则嵌入式数据库：安卓、windows、linux、IOS等；这里是动态数据类型，会根据输入的值自动判断并存储。 1.null 空值 2…

大数据 2023年11月10日
0036
[Golang数据库专题3]Golang语言操作SQLite3进行增删改查

目录一、SQLite3安装（linux） 1.2 在线安装开始安装目录下创建db 执行表创建语句二、方案选型三、编写代码 3.1 代码运行环境准备 Go语言环境 SQLi…

大数据 2023年11月10日
0030
kafka调试工具kafkacat的使用

一、安装 kafkacat 是基于kafka C语言的librdkafka库的 kafka客户端，不依赖java，小巧轻便，支持主流系统。在高版本的debain、Ubuntu下可…

大数据 2023年5月28日
0079
[jvm][面试]JVM 调优总结

https://blog.csdn.net/wfh6732/article/details/57422967 堆大小设置 JVM 中最大堆大小有三方面限制：相关操作系统的数据模型（…

大数据 2023年5月28日
0073
hive中行转列

select concat(‘a’,’b’,’c’) ; ‘abc’ select concat(‘a’,null,’c’); null 多列合并成一列 sele…

大数据 2023年11月13日
0038
SwiftUI SQLite数据大全之如何创建加密数据库并在项目中读取加密数据（SQLite.swift SQLCipher教程含源码）

; 实战需求 SwiftUI SQLite数据大全之如何创建加密数据库并在项目中读取加密数据（SQLite.swift SQLCipher教程含源码）本文价值与收获看完本文…

大数据 2023年11月11日
0035
hive – 字符串string和bigint类型的坑

1、string = bigint (假设) person 表数据： id:stringname72315*49aa72315*48bb spc 表数据： id:bigintmod…

大数据 2023年11月13日
0045
Podman部署及应用

点击查看代码什么是podman Podman是一个开源项目，可在大多数Linux平台上使用并开源在GitHub上。Podman是一个无守护进程的容器引擎，用于在Linux系统上开…

大数据 2023年5月27日
0065
QSqlTableModel设置字段显示顺序，实现自定义排序与显示

有问题待完善！！！！！！！需求明确在做一个数据库模块时，遇到要用户要对显示进行自定义操作，也就是在QSqltablemodel绑定tableview后，不按照默认的字段显示用过…

大数据 2023年11月12日
0053
Linux 进程管理

基础知识进程 内核的功能和&#x4F5…

大数据 2023年5月27日
00110

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

mapreduce 数据倾斜解决方法

下面列举了一些常见的导致数据倾斜的场景。

针对数据倾斜，业界一般有以下几种解决方案。

大家都在看