Hive整合HBase，操作HBase表

2023年11月12日下午6:39 • 大数据 • 阅读 32

Hive over HBase原理

Hive与HBase利用两者本身对外的API来实现整合，主要是靠 HBaseStorageHandler进行通信，利用 HBaseStorageHandler，Hive可以获取到Hive表对应的HBase表名，列簇以及列，InputFormat和 OutputFormat类，创建和删除HBase表等。
Hive访问HBase中表数据，实质上是通过MapReduce读取HBase表数据，其实现是在MR中，使用 HiveHBaseTableInputFormat完成对HBase表的切分，获取 RecordReader对象来读取数据。
对HBase表的切分原则是一个Region切分成一个Split,即表中有多少个Regions,MR中就有多少个Map；
读取HBase表数据都是通过构建Scanner，对表进行全表扫描，如果有过滤条件，则转化为Filter。当过滤条件为rowkey时，则转化为对rowkey的过滤；
Scanner通过RPC调用RegionServer的next()来获取数据；

查询性能比较：

query1:
select count(1) from on_hdfs;
select count(1) from on_hbase;
query2(根据key过滤)
select * from on_hdfs
where key = ‘13400000064_1388056783_460095106148962′;
select * from on_hbase
where key = ‘13400000064_1388056783_460095106148962′;
query3(根据value过滤)
select * from on_hdfs where value = ‘XXX’;
select * from on_hbase where value = ‘XXX’;

on_hdfs (20万记录，150M，TextFile on HDFS)
on_hbase(20万记录，160M，HFile on HDFS)

Hive over HBase

on_hdfs (2500万记录，2.7G，TextFile on HDFS)
on_hbase(2500万记录，3G，HFile on HDFS)

Hive over HBase

全表扫描，hive_on_hbase查询时候如果不设置 caching，性能远远不及hive_on_hdfs；
根据rowkey过滤，hive_on_hbase性能上略好于hive_on_hdfs，特别是数据量大的时候；
设置了 caching之后，尽管比不设caching好很多，但还是略逊于hive_on_hdfs；

性能瓶颈分析

1. Map Task

Hive读取HBase表，通过MR,最终使用 HiveHBaseTableInputFormat来读取数据，在getSplit()方法中对 HBase表进行切分，切分原则是根据该表对应的HRegion，将每一个Region作为一个InputSplit，即，该表有多少个Region,就有多少个Map Task；
每个Region的大小由参数 hbase.hregion.max.filesize控制，默认10G，这样会使得每个map task处理的数据文件太大，map task性能自然很差；
为HBase表预分配Region，使得每个Region的大小在合理的范围；
下图是给该表预分配了15个Region，并且控制key均匀分布在每个Region上之后，查询的耗时对比，其本质上是Map数增加。

Hive over HBase

2. Scan RPC 调用：

在Scan中的每一次next()方法都会为每一行数据生成一个单独的RPC请求， query1和query3中，全表有2500万行记录，因此要2500万次RPC请求；
扫描器缓存（ Scanner Caching）：HBase为扫描器提供了缓存的功能，可以通过参数 hbase.client.scanner.caching来设置；默认是1；缓存的原理是通过设置一个缓存的行数，当客户端通过RPC请求RegionServer获取数据时，RegionServer先将数据缓存到内存，当缓存的数据行数达到参数设置的数量时，再一起返回给客户端。这样，通过设置扫描器缓存，就可以大幅度减少客户端RPC调用RegionServer的次数；但并不是缓存设置的越大越好，如果设置的太大，每一次RPC调用将会占用更长的时间，因为要获取更多的数据并传输到客户端，如果返回给客户端的数据超出了其堆的大小，程序就会终止并跑出OOM异常；

所以，需要为少量的RPC请求次数和客户端以及服务端的内存消耗找到平衡点。

rpc.metrics.next_num_ops
未设置caching,每个RegionServer上通过next()方法调用RPC的次数峰值达到1000万：

Hive over HBase

设置了caching=2000，每个RegionServer上通过next()方法调用RPC的次数峰值只有4000：

Hive over HBase

设置了caching之后，几个RegionServer上的内存消耗明显增加：

Hive over HBase

扫描器批量（ Scanner Batch）：缓存是面向行一级的操作，而批量则是面向列一级的操作。批量可以控制每一次next()操作要取回多少列。比如，在扫描器中设置setBatch(5),则一次next()返回的Result实例会包括5列。
RPC请求次数的计算公式如下：
*RPC请求次数 = （表行数 * 每行的列数）/ Min(每行的列数，批量大小) / 扫描器缓存

因此，在使用Hive over HBase，对HBase中的表做统计分析时候，需要特别注意以下几个方面：

对HBase表进行预分配Region，根据表的数据量估算出一个合理的Region数；
rowkey设计上需要注意，尽量使rowkey均匀分布在预分配的N个Region上；
通过 set hbase.client.scanner.caching设置合理的扫描器缓存；
关闭mapreduce的推测执行：

set mapred.map.tasks.speculative.execution = false;
set mapred.reduce.tasks.speculative.execution = false;

参考链接：Hive over HBase和Hive over HDFS性能比较分析

Original: https://blog.csdn.net/weishuai90/article/details/128768539
Author: ws的大数据田地
Title: Hive整合HBase，操作HBase表

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/817669/

转载文章受原作者版权保护。转载请注明原作者出处！

大数据

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

使用grafana+Prometheus监控时PromQL内置函数详解

1）、sum (求和)对样本值求和；比如：需要计算整个应用的HTTP请求总量，可以直接使用表达式： sum(prometheus_http_requests_total)2）、m…

大数据 2023年6月3日
0078
SQLite3 学习笔记以及C#连接SQLite3

数据库结构在sqlite中，一个文件是一个数据库，一个数据库中可以包含多个表，其中sqlite_master表是数据库的核心表，用于记录其余所有表的基本相关信息。可以使用.ta…

大数据 2023年11月11日
0025
9-4 Prometheus监控案例Tomcat, Redis, Mysql, Haproxy, Nginx, Ingress

大数据 2023年11月16日
0029
Tapdata 杨哲轩：如何在零售行业实施主数据治理？

[TencentCloudSDKException] code:FailedOperation.ServiceIsolate message:service is stopped …

大数据 2023年6月3日
0093
DTMO直播预告｜Taier的Web前端架构解析

原文链接：DTMO 直播预告｜Taier 的 Web 前端架构解析一、直播介绍上两期，我们为大家分享了 Taier 入门及控制台的介绍，本期我们为大家分享 Taier …

大数据 2023年5月26日
0058
docker网络配置方法总结

docker启动时，会在宿主主机上创建一个名为docker0的虚拟网络接口，默认选择172.17.42.1/16，一个16位的子网掩码给容器提供了65534个IP地址。docker…

大数据 2023年5月29日
0090
7. KETTLE-9.3.0 centos安装部署

主机名：cmcc01为例操作系统：centos7 安装部署软件版本部署方式 centos 7 zookeeper zookeeper-3.4.10 伪分布式 hadoop h…

大数据 2023年11月12日
0053
【云原生】Kubernetes PDB（Pod Disruption Budget）介绍与简单使用

一、概述二、PDB 应用场景 1）自愿中断和非自愿中断场景 1、非自愿性中断场景 2、自愿性中断场景 2）PDB 关键参数和注意事项三、示例演示 1）使用 minAvailab…

大数据 2023年6月3日
0083
linux部署redis及设置开机自启

大数据 2023年11月14日
0037
MyBatis-Plus

前言使用Mybatis进行开发有以下不足 1.每一张表都需要配置一套基本的增删改查功能，造成代码重复； 3.所有SQL语句全部自己写，表字段名称容易拼写错误； 2.使用xml标签…

大数据 2023年6月3日
00110
Ubuntu 安装k8s集群

镜像下载、域名解析、时间同步请点击阿里云开源镜像站前言本文介绍如何在ubuntu上部署k8s集群，大致可以分为如下几个步骤修改ubuntu配置安装docker 安装kube…

大数据 2023年5月27日
0045
Nginx

2022-08-15 22:06:21 星期一2022-09-03 18:23:18 星期六操作系统安装： centos7 mini版，修改网络配置文件，重启网络服务，查看ip命…

大数据 2023年6月3日
0050
openwrt临时封禁ip

用的openwrt路由器，家里宽带申请了动态公网ip，为了方便把22 80端口映射到公网，发现经常被暴力破解，自己写了个临时封禁ip功能的脚本，实现5分钟内同一个ip登录密码错误1…

大数据 2023年5月27日
0077
领导：谁再用 Redis 实现过期订单关闭，立马滚蛋

大数据 2023年11月15日
0046
JuiceFS V1.0 RC1 发布，大幅优化 dump/load 命令性能，深度用户不容错过

各位社区的伙伴， JuiceFS v1.0 RC1 今天正式发布了！这个版本中，最值得关注的是对元数据迁移备份工具 dump/load 的优化。这个优化需求来自于某个社区重度用…

大数据 2023年6月3日
0068
在wget中使用自定义HTTP头信息

wget是一个Linux命令行工具，用于通过HTTP、HTTPS和FTP协议从网上检索文件。当你使用 wget在一个特定的HTTP网址上下载一个文件时， wget会向目标网络服务器…

大数据 2023年5月27日
0066

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

Hive整合HBase，操作HBase表

Hive over HBase原理

查询性能比较：

性能瓶颈分析

1. Map Task

2. Scan RPC 调用：

大家都在看