HBase 性能优化方法总结（一）：表的设计

2023年5月25日下午11:45 • 大数据 • 阅读 52

1.Pre-Creating Regions

默认情况下，在创建 HBase 表的时候会自动创建一个 region 分区，当导入数据的时候，所有的 HBase客户端都向这一个region写数据，直到这个region足够大了才进行切分（也可以通过命令手动分区：create ‘testtable’,’cf1′,{SPLITS => [‘row-100′,’row-200′,’row-300’]}）。一种可以加快批量写入速度的方法是通过预先创建一些空的 regions，这样当数据写入 HBase 时，会按照 region 分区情况，在集群内做数据的负载均衡

命令行方式：

hbase(main):017:0> create 'testtable','cf1',{SPLITS => ['row-100','row-200','row-300']}

代码方式：

package yqq.study.app5;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.hbase.HColumnDescriptor;import org.apache.hadoop.hbase.HTableDescriptor;import org.apache.hadoop.hbase.TableName;import org.apache.hadoop.hbase.client.HBaseAdmin;import org.junit.After;import org.junit.Before;import org.junit.Test;import java.io.IOException;    public class TablePreRegion {    private HBaseAdmin admin;    private String tableName = "tb_region1";        public void init() throws Exception {        Configuration conf = new Configuration(true);        conf.set("hbase.zookeeper.quorum","node2,node3,node4");        admin = new HBaseAdmin(conf);    }        public void close() throws IOException {        if(admin!=null)            admin.close();    }        public void createTable() throws IOException {                if(admin.tableExists(tableName)){                        admin.disableTable(tableName);            admin.deleteTable(tableName);        }                HTableDescriptor tableDescriptor = new HTableDescriptor(TableName.valueOf(tableName));                HColumnDescriptor hColumnDescriptor = new HColumnDescriptor("cf".getBytes());                tableDescriptor.addFamily(hColumnDescriptor);                byte[][] splitKeys = new byte[3][];        splitKeys[0] = "row-100".getBytes();        splitKeys[1] = "row-200".getBytes();        splitKeys[2] = "row-300".getBytes();                admin.createTable(tableDescriptor,splitKeys);    }}

2.Row Key

HBase 中 row key 用来检索表中的记录，支持以下三种方式：
• 通过单个 row key 访问：即按照某个 row key 键值进行 get 操作；
• 通过 row key 的 range 进行 scan：即通过设置 startRowKey 和 stopRowKey，在这个范围内进行扫描；
• 全表扫描：即直接扫描整张表中所有行记录。在 HBase 中， row key 可以是任意字符串，最大长度 64KB，实际应用中一般为 10~100bytes，存为 byte[]字节数组，一般设计成定长的。 row key 是按照字典序存储，因此，设计 row key 时，要充分利用这个排序特点，将经常一起读取的数据存储到一块，将最近可能会被访问的数据放在一块。

举个例子：如果最近写入 HBase 表中的数据是最可能被访问的，可以考虑将时间戳作为 rowkey 的一部分，由于是字典序排序，所以可以使用 Long.MAX_VALUE – timestamp 作为 row key，这样能保证新写入的数据在读取时可以被快速命中

Rowkey 规则：
1、越小越好
2、 Rowkey 的设计是要根据实际业务来
3、散列性
a) 取反 001 002 100 200
b) Hash

3.Column Family

不要在一张表里定义太多的 column family。目前 Hbase 并不能很好的处理超过 2~3 个 column family 的表。因为某个 column family 在 flush 的时候，它邻近的 column family 也会因关联效应被触发 flush，最终导致系统产生更多的 I/O。感兴趣的同学可以对自己的 HBase 集群进行实际测试，从得到的测试结果数据验证一下。

一个 region 由多个 store 组成，一个 store 对应一个 CF（列族）

4.In Memory

创建表的时候，可以通过 HColumnDescriptor.setInMemory(true) 将表放到RegionServer 的缓存中，保证在读取的时候被 cache 命中。用在读取比较频繁的列族上。

5.Max Version

创建表的时候，可以通过 HColumnDescriptor.setMaxVersions(int maxVersions)设置表中数据的最大版本，如果只需要保存最新版本的数据，那么可以设置 setMaxVersions(1)。

6.Time To Live

创建表的时候，可以通过 HColumnDescriptor.setTimeToLive(int timeToLive)设置表中数据的存储生命期，过期数据将自动被删除，例如如果只需要存储最近两天的数据，那么可以设置 setTimeToLive(2 * 24 * 60 * 60)，单位秒。

7.Compact & Split

在 HBase 中，数据在更新时首先写入 WAL 日志(HLog)和内存(MemStore)中， MemStore 中的数据是排序的，当 MemStore 累计到一定阈值时，就会创建一个新的 MemStore，并且将老的 MemStore 添加到 flush 队列，由单独的线程 flush 到磁盘上，成为一个 StoreFile。于此同时，系统会在 zookeeper 中记录一个 redo point，表示这个时刻之前的变更已经持久化了(minor compact)。

StoreFile 是只读的，一旦创建后就不可以再修改。因此 Hbase 的更新其实是不断追加的操作。当一个 Store 中的 StoreFile 数量达到一定的阈值后，就会进行一次合并(major compact)，将对同一个 key 的修改合并到一起，形成一个大的 StoreFile，当 StoreFile 的大小达到一定阈值后，又会对 StoreFile 进行分割(split)，”等分”为两个 StoreFile。

由于对表的更新是不断追加的，处理读请求时，需要访问 Store 中全部的 StoreFile 和 MemStore，将它们按照 row key 进行合并，由于 StoreFile 和 MemStore 都是经过排序的，并且 StoreFile 带有内存中索引，通常合并过程还是比较快的。

实际应用中，可以考虑必要时手动进行 major compact，将同一个 row key 的修改进行合并形成一个大的 StoreFile。同时，可以将 StoreFile 设置大些，减少 split 的发生。 hbase 为了防止小文件（被刷到磁盘的 menstore）过多，以保证保证查询效率，hbase 需要在必要的时候将这些小的 store file 合并成相对较大的 store file，这个过程就称之为 compaction。在 hbase 中，主要存在两种类型的 compaction：minor compaction 和 major compaction。 minor compaction:的是较小、很少文件的合并。 major compaction 的功能是将所有的 store file 合并成一个，触发 major compaction 的可能条件有：major_compact 命令、majorCompact() API、region server 自动运行（相关参数： hbase.hregion.majoucompaction 默认为 24 小时、 hbase.hregion.majorcompaction.jetter 默认值为 0.2 防止 region server 在同一时间进行 major compaction）。 hbase.hregion.majorcompaction.jetter 参数的作用是：对参数 hbase.hregion.majoucompaction 规定的值起到浮动的作用，假如两个参数都为默认值 24 和 0.2，那么 major compact 最终使用的数值为：19.2~28.8 这个范围。

1、关闭自动 major compaction 2、手动编程 major compaction

[root@node1 ~]desc 'bjsxt:phone_log' major_compact 'bjsxt:phone_log' exit [root@node1 ~]

Timer 类，crontab minor compaction 的运行机制要复杂一些，它由一下几个参数共同决定： hbase.hstore.compaction.min :默认值为 3，表示至少需要三个满足条件的 store file 时， minor compaction 才会启动 hbase.hstore.compaction.max 默认值为 10，表示一次 minor compaction 中最多选取 10 个 store file hbase.hstore.compaction.min.size 表示文件大小小于该值的 store file 一定会加入到 minor compaction 的 store file 中 hbase.hstore.compaction.max.size 表示文件大小大于该值的 store file 一定会被 minor compaction 排除 hbase.hstore.compaction.ratio 将 store file 按照文件年龄排序（older to younger）， minor compaction 总是从 older store file 开始选择

Original: https://blog.51cto.com/u_15704423/5434876
Author: wx62be9d88ce294
Title: HBase 性能优化方法总结（一）：表的设计

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/516924/

转载文章受原作者版权保护。转载请注明原作者出处！

大数据

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

docker swarm 搭建与服务更新

docker swarm init –advertise-addr 192.168.100.129 此时将本机ip”192.168.100.126″，会默…

大数据 2023年5月29日
0085
【原创】docker相关：宿主机（或外部ip）访问docker服务和 docker内访问宿主机服务

1、宿主机（或外部ip）访问docker服务和 docker内访问宿主机服务，两种方式均以redis服务为例。 2、 docker访问宿主机redis服务： 3、宿主机（或外部…

大数据 2023年5月29日
0067
java基于ssm的企业项目管理系统

目前市面上各种企业项目管理系统不少，但是，对于大多数企业而言，需要的是一个操作简便、符合企业实际情况的系统，我们的目标就是开发一个这样的企业项目管理系统。能够进行项目申报、审核、进…

大数据 2023年5月26日
00107
JetsonNano之安装ROS melodic

JetsonNano之安装ROS melodic 原创 wx62b9325dd56a72022-06-27 17:21:59博主文章分类：Jetson Nano ©著作权文章标签…

大数据 2023年5月26日
0080
【自然语言处理】【数据增强】PromDA：应用于低资源NLU任务的、基于prompt的数据增强方法

PromDA：应用于低资源NLU任务的、基于Prompt的数据增强方法原始论文地址：[2202.12499] PromDA: Prompt-based Data Augmenta…

大数据 2023年5月28日
0070
kafka 副本复制的几个参数

producer 0 客户端不需要响应，如果 broker 写入异常，直接关闭连接1 分区 leader 写入 FileChannel 即返回-1 和 min.insync.rep…

大数据 2023年5月28日
0068
查看redis占用内存的方法详解

大数据 2023年11月14日
0045
Kafka 读出指定 partition 指定位置数据

Q:Using kafka-python, is it possible to read a specific range of offsets for given partiti…

大数据 2023年5月28日
0062
docker 常用命令

镜像类似搜素镜像： docker search 用于查询远端镜像镜像列表： docker images 用于查询本地镜像列表删除镜像： docker rmi <image:…

大数据 2023年5月29日
0057
Qt — 1、QT连接数据库（SQLite3）

视频教程链接：https://www.bilibili.com/video/BV1Li4y1f7ho?p=3. 类 QSqlDatabase 上图中的静态成员函数 addDatab…

大数据 2023年11月10日
0048
Alpine

Alpine Alpine Alpine介绍 Alpine的优点 Alpine国内源安装Alpine 更换apk源 Alpine 服务管理常用命令的使用 Alpine介绍 al…

大数据 2023年5月26日
0067
Redis 大 key 要如何处理？

大数据 2023年11月16日
0044
apache doris创建外部表时，报Connect hive metastore failed.

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。 Original: https://blo…

大数据 2023年11月13日
0053
毕业设计- Fragment实例项目仿网易新闻

—— 别小看任何人,越不起眼的人。往往会做些让人想不到的事。我们看到很多APP特别是新闻类APP首页都是顶部是分类栏如热点、科技、社会，下面是一个列表，整体可以横向滑动的页面。 …

大数据 2023年11月12日
0040
SpringBoot 2.X快速掌握

0、重写博文的原因当初我的SpringBoot系列的知识是采用分节来写的，即：每一个知识点为一篇博文，但是：最近我霉到家了，我发现有些博文神奇般地打不开了，害我去找当初的mark…

大数据 2023年6月3日
0085
Ubuntu远程桌面助手(URDC)最新版

自动驾驶DCU及MEC属于典型的Headless设备，常见的方案有Jetson Orin+Ubuntu系统。在开发调试过程需要连接显示器(HDMI/DP)、鼠标和键盘，或使用NoM…

大数据 2023年5月27日
0096

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31