Hbase概述与读写流程

2023年7月11日上午12:54 • 技术杂谈 • 阅读 61

Hbase概述与读写流程

一、Hbase概述

Hbase是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统，用于存储海量的结构化或者半结构化，非结构化的数据（底层是字节数组做存储的）

HBase是Hadoop的生态系统之一，是建立在Hadoop文件系统（HDFS）之上的分布式、面向列的数据库，通过利用Hadoop的文件系统提供容错能力。如果需要进行实时读写或者随机访问大规模的数据集的时候，会考虑使用HBase。

HBase是可以提供实时计算的分布式数据库，数据被保存在HDFS分布式文件系统上，由HDFS保证期高容错性;

1.1、HBase是如何基于hadoop提供实时性呢？

HBase上的数据是以StoreFile(HFile)二进制流的形式存储在HDFS上block块儿中；

但是HDFS并不知道的HBase用于存储什么，它只把存储文件认为是二进制文件，也就是说，HBase的存储数据对于HDFS文件系统是透明的。

1.2、稀疏性

HBase中需要根据行键、列族、列限定符和时间戳来确定一个单元格，因此，可以视为一个” 四维坐标“，即 [行键, 列族, 列限定符, 时间戳]

1.3、数据模型

HBase通过表格的模式存储数据，每个表格由列和行组成，其中，每个列又被划分为若干个列族（colnum family），请参考下面的图：

表：HBase的数据同样是用表来组织的，表由行和列组成，列分为若干个列族，行和列的坐标交叉决定了一个单元格。
行：每个表由若干行组成， 每个行有一个行键作为这一行的唯一标识。访问表中的行只有三种方式：通过单个行键进行查询、通过一个行键的区间来访问、全表扫描。
列族：一个HBase表被分组成许多”列族”的集合，它是基本的访问控制单元。
列修饰符（列限定符）：列族里的数据通过列限定符（或列）来定位
单元格：在HBase表中，通过行、列族和列限定符确定一个”单元格”（cell），单元格中存储的数据没有数据类型， 总被视为字节数组byte[]
时间戳：每个单元格都保存着同一份数据的多个版本，这些版本采用时间戳进行索引

1.4、Hbase区域

HBase自动把表水平划分为区域（ Region），每个区域都是有若干 连续行构成的，一个区域由 所属的表、起始行、终止行（不包括这行）三个要素来表示。

一开始，一个表只有一个区域，但是随着数据的增加，区域逐渐变大，等到它超出设定的阈值大小，就会在某行的边界上进行拆分，分成两个大小 基本相同的区域。然后随着数据的再增加，区域就不断的增加，如果超出了单台服务器的容量，就可以把一些区域放到其他节点上去，构成一个集群。也就是说： 集群中的每个节点（Region Server）管理整个表的若干个区域。所以，我们说： 区域是HBase集群上分布数据的最小单位。

1.4.1、Memstore 与 storefile

一个region由多个store组成，一个store对应一个CF（列簇）
store包括位于内存中的memstore和位于磁盘的storefile写操作先写入 memstore，当memstore中的数据达到某个阈值，hregionserver会启动 flashcache进程写入storefile，每次写入形成单独的一个storefile
当storefile文件的数量增长到一定阈值后，系统会进行合并（minor、 major compaction），在合并过程中会进行版本合并和删除工作（majar），形成更大的storefile。
当一个region所有storefile的大小和超过一定阈值后，会把当前的region 分割为两个，并由hmaster分配到相应的regionserver服务器，实现负载均衡。
客户端检索数据，先在memstore找，找不到再找storefile
HRegion是HBase中分布式存储和负载均衡的最小单元。最小单元就表示不同的HRegion可以分布在不同的HRegion server上。
HRegion由一个或者多个Store组成，每个store保存一个columns family。
每个Strore又由一个memStore和0至多个StoreFile组成。

如图：StoreFile 以HFile格式保存在HDFS上。

1.5、Hbase系统架构

1.5.1、组件介绍

HBase由三种类型的服务器以主从模式构成：

Region Server：负责数据的读写服务，用户通过与Region server交互来实现对数据的访问。
HBase HMaster：负责Region的分配及数据库的创建和删除等操作。
ZooKeeper：负责维护集群的状态（某台服务器是否在线，服务器之间数据的同步操作及master的选举等）。

HDFS的DataNode负责存储所有Region Server所管理的数据，即HBase中的所有数据都是以HDFS文件的形式存储的。出于使Region server所管理的数据更加本地化的考虑，Region server是根据DataNode分布的。HBase的数据在写入的时候都存储在本地。但当某一个region被移除或被重新分配的时候，就可能产生数据不在本地的情况。这种情况只有在所谓的compaction之后才能解决。

Client

包含访问HBase的接口并维护cache来加快对HBase的访问

Zookeeper

保证任何时候，集群中只有一个master
存贮所有Region的寻址入口。
实时监控Region server的上线和下线信息。并实时通知Master
存储HBase的schema和table元数据

Master

为Region server分配region
负责Region server的负载均衡
发现失效的Region server并重新分配其上的region
管理用户对table的增删改操作

RegionServer

Region server维护region，处理对这些region的IO请求
Region server负责切分在运行过程中变得过大的region

HLog(WAL log)：

HLog文件就是一个普通的Hadoop Sequence File，Sequence File 的Key是 HLogKey对象，HLogKey中记录了写入数据的归属信息，除了table和 region名字外，同时还包括sequence number和timestamp，timestamp是” 写入时间”，sequence number的起始值为0，或者是最近一次存入文件系统sequence number。
HLog SequeceFile的Value是HBase的KeyValue对象，即对应HFile中的 KeyValue

Region

HBase自动把表水平划分成多个区域(region)，每个region会保存一个表里面某段连续的数据；每个表一开始只有一个region，随着数据不断插入表，region不断增大，当增大到一个阀值的时候，region就会等分会两个新的region（裂变）；
当table中的行不断增多，就会有越来越多的region。这样一张完整的表被保存在多个Regionserver上。

理解难点

&#x3000;&#x3000;1&#x3001;flush&#x5237;&#x65B0;&#x5728;HDFS&#x4E0A;&#x5448;&#x73B0;&#x7A76;&#x7ADF;&#x662F;&#x600E;&#x4E48;&#x5237;&#x65B0;&#x7684;&#x5462;&#xFF1F;&#xFF1F;
&#x3000;&#x3000;&#x3000;&#x3000;&#x6211;&#x4EEC;&#x76EE;&#x524D;&#x521A;&#x521A;&#x5B66;&#x4E60;&#x7684;&#x65F6;&#x5019;&#xFF0C;&#x6DFB;&#x52A0;&#x6570;&#x636E;&#xFF0C;&#x90FD;&#x662F;&#x4E00;&#x6761;&#x4E00;&#x6761;&#x7684;put&#x8FDB;&#x53BB;&#xFF0C;&#x800C;&#x6211;&#x4EEC;&#x5728;put&#x7684;&#x6570;&#x636E;&#x6BD4;&#x8F83;&#x5C11;&#xFF08;&#x5C0F;&#x4E8E;128M&#xFF09;&#x7684;&#x65F6;&#x5019;&#xFF0C;&#x6211;&#x4EEC;put&#x5B8C;&#x53BB;HDFS&#x4E0A;&#x5E76;&#x672A;&#x67E5;&#x770B;&#x5230;&#x6211;&#x4EEC;put&#x7684;&#x6587;&#x4EF6;&#xFF0C;&#x8FD9;&#x662F;&#x56E0;&#x4E3A;&#x6570;&#x636E;&#x8FD8;&#x5728;&#x5185;&#x5B58;&#x4E2D;&#xFF0C;&#x4E5F;&#x5C31;&#x662F;&#x8FD8;&#x5728;memStore&#x4E2D;&#xFF0C;&#x6240;&#x4EE5;&#x8981;&#x60F3;&#x5728;HDFS&#x4E2D;&#x67E5;&#x770B;&#x5230;&#xFF0C;&#x6211;&#x4EEC;&#x5FC5;&#x987B;&#x624B;&#x52A8;&#x5237;&#x65B0;&#x5230;&#x78C1;&#x76D8;&#x4E2D;&#xFF0C;&#x8FD9;&#x662F;&#x5C06;memStore&#x7684;&#x6570;&#x636E;&#x5237;&#x65B0;&#x5230;StoreFile&#x4E2D;&#x53BB;&#xFF0C;&#x8FD9;&#x6837;&#x6211;&#x4EEC;&#x5728;HDFS&#x4E2D;&#x5C31;&#x53EF;&#x4EE5;&#x67E5;&#x770B;&#x5230;&#x4E86;&#x3002;&#x3000;&#x3000;

&#x3000;&#x3000;2&#x3001;&#x4E3A;&#x4EC0;&#x4E48;Hbase&#x4E0D;&#x53EF;&#x4EE5;&#x4F7F;&#x7528;&#x50CF;Mysql&#x90A3;&#x6837;&#x8FDB;&#x884C;&#x67E5;&#x8BE2;&#xFF1F;&#xFF1F;
&#x3000;&#x3000;&#x3000;&#x3000;&#x9996;&#x5148;&#xFF0C;&#x6211;&#x4EEC;&#x5E94;&#x8BE5;&#x53EF;&#x4EE5;&#x611F;&#x53D7;&#x5230;&#xFF0C;&#x6211;&#x4EEC;&#x5728;&#x63D2;&#x5165;&#x7684;&#x65F6;&#x5019;&#xFF0C;&#x6BCF;&#x884C;&#x6570;&#x636E;&#xFF0C;&#x6709;&#x591A;&#x5C11;&#x5217;&#xFF0C;&#x5217;&#x540D;&#x53EB;&#x4EC0;&#x4E48;&#x5B8C;&#x5168;&#x662F;&#x6211;&#x4EEC;&#x81EA;&#x5DF1;&#x5B9A;&#x4E49;&#x7684;&#xFF0C;&#x4E4B;&#x6240;&#x4EE5;&#x4E0D;&#x652F;&#x6301;&#x50CF;MySql&#x90A3;&#x6837;&#x5BF9;&#x5217;&#x8FDB;&#x884C;&#x67E5;&#x8BE2;&#x548C;&#x64CD;&#x4F5C;&#xFF0C;&#x56E0;&#x4E3A;&#x4E0D;&#x786E;&#x5B9A;&#x5217;&#x7684;&#x4E2A;&#x6570;&#x548C;&#x540D;&#x79F0;&#x3002;

&#x3000;&#x3000;3&#x3001;&#x6570;&#x636E;&#x6700;&#x540E;&#x5B58;&#x5728;HDFS&#x4E0A;&#x7684;&#xFF0C;HDFS&#x4E0D;&#x652F;&#x6301;&#x5220;&#x6539;&#xFF0C;&#x4E3A;&#x4EC0;&#x4E48;Hbase&#x5C31;&#x53EF;&#x4EE5;&#x5462;&#xFF1F;&#xFF1F;
&#x3000;&#x3000;&#x3000;&#x3000;&#x8FD9;&#x91CC;&#x6709;&#x4E2A;&#x601D;&#x60F3;&#x8BEF;&#x533A;&#xFF0C;&#x7684;&#x786E;&#xFF0C;&#x6570;&#x636E;&#x662F;&#x4EE5;HFile&#x5F62;&#x5F0F;&#x5B58;&#x5728;HDFS&#x4E0A;&#x7684;&#xFF0C;&#x800C;&#x4E14;HDFS&#x7684;&#x786E;&#x662F;&#x4E0D;&#x652F;&#x6301;&#x5220;&#x6539;&#x7684;&#xFF0C;&#x4F46;&#x662F;&#x4E3A;&#x4EC0;&#x4E48;Hbase&#x5C31;&#x652F;&#x6301;&#x5462;&#xFF1F;&#x9996;&#x5148;&#xFF0C;&#x8FD9;&#x91CC;&#x7684;&#x5220;&#x9664;&#x5E76;&#x4E0D;&#x662F;&#x771F;&#x6B63;&#x610F;&#x4E49;&#x4E0A;&#x7684;&#x5BF9;&#x6570;&#x636E;&#x8FDB;&#x884C;&#x5220;&#x9664;&#xFF0C;&#x800C;&#x662F;&#x5BF9;&#x6570;&#x636E;&#x8FDB;&#x884C;&#x6253;&#x4E0A;&#x6807;&#x8BB0;&#xFF0C;&#x6211;&#x4EEC;&#x518D;&#x53BB;&#x67E5;&#x7684;&#x65F6;&#xFF0C;&#x5C31;&#x4E0D;&#x4F1A;&#x67E5;&#x5230;&#x8FD9;&#x4E2A;&#x6253;&#x8FC7;&#x6807;&#x8BB0;&#x7684;&#x6570;&#x636E;&#xFF0C;&#x8FD9;&#x4E2A;&#x6570;&#x636E;Hmaster&#x4F1A;&#x6BCF;&#x9694;1&#x5C0F;&#x65F6;&#x6E05;&#x7406;&#x3002;&#x4FEE;&#x6539;&#x662F;put&#x4E24;&#x6B21;&#xFF0C;Hbase&#x4F1A;&#x53D6;&#x6700;&#x65B0;&#x7684;&#x6570;&#x636E;&#xFF0C;&#x8FC7;&#x671F;&#x6570;&#x636E;&#x4E5F;&#x662F;&#x8FD9;&#x4E2A;&#x65B9;&#x5F0F;&#x88AB;&#x6E05;&#x7406;&#x3002;

二、Hbase读写流程

2.1、架构图

2.2、读流程

Hbase&#x8BFB;&#x53D6;&#x6570;&#x636E;&#x7684;&#x6D41;&#x7A0B;&#xFF1A;
1&#xFF09;&#x662F;&#x7531;&#x5BA2;&#x6237;&#x7AEF;&#x53D1;&#x8D77;&#x8BFB;&#x53D6;&#x6570;&#x636E;&#x7684;&#x8BF7;&#x6C42;&#xFF0C;&#x9996;&#x5148;&#x4F1A;&#x4E0E;zookeeper&#x5EFA;&#x7ACB;&#x8FDE;&#x63A5;
2&#xFF09;&#x4ECE;zookeeper&#x4E2D;&#x83B7;&#x53D6;&#x4E00;&#x4E2A;hbase:meta&#x8868;&#x4F4D;&#x7F6E;&#x4FE1;&#x606F;&#xFF0C;&#x88AB;&#x54EA;&#x4E00;&#x4E2A;regionserver&#x6240;&#x7BA1;&#x7406;&#x7740;
     hbase:meta&#x8868;&#xFF1A;hbase&#x7684;&#x5143;&#x6570;&#x636E;&#x8868;&#xFF0C;&#x5728;&#x8FD9;&#x4E2A;&#x8868;&#x4E2D;&#x5B58;&#x50A8;&#x4E86;&#x81EA;&#x5B9A;&#x4E49;&#x8868;&#x76F8;&#x5173;&#x7684;&#x5143;&#x6570;&#x636E;&#xFF0C;&#x5305;&#x62EC;&#x8868;&#x540D;&#xFF0C;&#x8868;&#x6709;&#x54EA;&#x4E9B;&#x5217;&#x7C07;&#xFF0C;&#x8868;&#x6709;&#x54EA;&#x4E9B;region,&#x6BCF;&#x4E2A;region&#x5B58;&#x50A8;&#x7684;&#x4F4D;&#x7F6E;&#xFF0C;&#x6BCF;&#x4E2A;region&#x88AB;&#x54EA;&#x4E2A;regionserver&#x6240;&#x7BA1;&#x7406;&#xFF0C;&#x8FD9;&#x4E2A;&#x8868;&#x4E5F;&#x662F;&#x5B58;&#x50A8;&#x5728;&#x67D0;&#x4E00;&#x4E2A;region&#x4E0A;&#x7684;&#xFF0C;&#x5E76;&#x4E14;&#x8FD9;&#x4E2A;meta&#x8868;&#x53EA;&#x4F1A;&#x88AB;&#x4E00;&#x4E2A;regionserver&#x6240;&#x7BA1;&#x7406;&#x3002;&#x8FD9;&#x4E2A;&#x8868;&#x7684;&#x4F4D;&#x7F6E;&#x4FE1;&#x606F;&#x53EA;&#x6709;zookeeper&#x77E5;&#x9053;&#x3002;
3&#xFF09;&#x8FDE;&#x63A5;&#x8FD9;&#x4E2A;meta&#x8868;&#x5BF9;&#x5E94;&#x7684;regionserver,&#x4ECE;meta&#x8868;&#x4E2D;&#x83B7;&#x53D6;&#x5F53;&#x524D;&#x4F60;&#x8981;&#x8BFB;&#x53D6;&#x7684;&#x8FD9;&#x4E2A;&#x8868;&#x5BF9;&#x5E94;&#x7684;regionsever&#x662F;&#x8C01;&#x3002;
     &#x5F53;&#x4E00;&#x4E2A;&#x8868;&#x591A;&#x4E2A;region&#x600E;&#x4E48;&#x529E;&#x5462;&#xFF1F;
     &#x5982;&#x679C;&#x6211;&#x4EEC;&#x83B7;&#x53D6;&#x6570;&#x636E;&#x662F;&#x4EE5;get&#x7684;&#x65B9;&#x5F0F;&#xFF0C;&#x53EA;&#x4F1A;&#x8FD4;&#x56DE;&#x4E00;&#x4E2A;regionserver
     &#x5982;&#x679C;&#x6211;&#x4EEC;&#x83B7;&#x53D6;&#x6570;&#x636E;&#x662F;&#x4EE5;scan&#x7684;&#x65B9;&#x5F0F;&#xFF0C;&#x4F1A;&#x5C06;&#x6240;&#x6709;&#x7684;region&#x5BF9;&#x5E94;&#x7684;regionserver&#x7684;&#x5730;&#x5740;&#x5168;&#x90E8;&#x8FD4;&#x56DE;&#x3002;
4&#xFF09;&#x8FDE;&#x63A5;&#x8981;&#x8BFB;&#x53D6;&#x8868;&#x7684;&#x5BF9;&#x5E94;&#x7684;regionserver,&#x4ECE;regionserver&#x4E0A;&#x7684;&#x5F00;&#x59CB;&#x8BFB;&#x53D6;&#x6570;&#x636E;&#xFF1A;
       &#x8BFB;&#x53D6;&#x987A;&#x5E8F;&#xFF1A;memstore-->blockcache-->storefile-->Hfile&#x4E2D;
       &#x6CE8;&#x610F;&#xFF1A;&#x5982;&#x679C;&#x662F;scan&#x64CD;&#x4F5C;&#xFF0C;&#x5C31;&#x4E0D;&#x4EC5;&#x4EC5;&#x53BB;blockcache&#x4E86;&#xFF0C;&#x800C;&#x662F;&#x6240;&#x6709;&#x90FD;&#x4F1A;&#x53BB;&#x627E;&#x3002;

2.3、写流程

&#x5F02;&#x6B65;&#x64CD;&#x4F5C;
5&#xFF09;&#x968F;&#x7740;&#x5BA2;&#x6237;&#x7AEF;&#x4E0D;&#x65AD;&#x5730;&#x5199;&#x5165;&#x6570;&#x636E;&#xFF0C;memstore&#x4E2D;&#x7684;&#x6570;&#x636E;&#x4F1A;&#x8D8A;&#x6765;&#x591A;&#xFF0C;&#x5F53;&#x5185;&#x5B58;&#x4E2D;&#x7684;&#x6570;&#x636E;&#x8FBE;&#x5230;&#x9608;&#x503C;&#xFF08;128M/1h&#xFF09;&#x7684;&#x65F6;&#x5019;&#xFF0C;&#x653E;&#x5165;&#x5230;blockchache&#x4E2D;&#xFF0C;&#x751F;&#x6210;&#x65B0;&#x7684;memstore&#x63A5;&#x6536;&#x7528;&#x6237;&#x8FC7;&#x6765;&#x7684;&#x6570;&#x636E;&#xFF0C;&#x7136;&#x540E;&#x5F53;blockcache&#x7684;&#x5927;&#x5C0F;&#x8FBE;&#x5230;&#x4E00;&#x5B9A;&#x9608;&#x503C;&#xFF08;0.85&#xFF09;&#x7684;&#x65F6;&#x5019;&#xFF0C;&#x5F00;&#x59CB;&#x89E6;&#x53D1;flush&#x673A;&#x5236;&#xFF0C;&#x5C06;&#x6570;&#x636E;&#x6700;&#x7EC8;&#x5237;&#x65B0;&#x5230;HDFS&#x4E2D;&#x5F62;&#x6210;&#x5C0F;&#x7684;Hfile&#x6587;&#x4EF6;&#x3002;

6&#xFF09;&#x968F;&#x7740;&#x4E0D;&#x65AD;&#x5730;&#x5237;&#x65B0;&#xFF0C;storefile&#x4E0D;&#x65AD;&#x5730;&#x5728;HDFS&#x4E0A;&#x751F;&#x6210;&#x5C0F;HFIle&#x6587;&#x4EF6;&#xFF0C;&#x5F53;&#x5C0F;&#x7684;HFile&#x6587;&#x4EF6;&#x8FBE;&#x5230;&#x9608;&#x503C;&#x7684;&#x65F6;&#x5019;&#xFF08;3&#x4E2A;&#x53CA;3&#x4E2A;&#x4EE5;&#x4E0A;&#xFF09;,&#x5C31;&#x4F1A;&#x89E6;&#x53D1;Compaction&#x673A;&#x5236;&#xFF0C;&#x5C06;&#x5C0F;&#x7684;HFile&#x5408;&#x5E76;&#x6210;&#x4E00;&#x4E2A;&#x5927;&#x7684;HFile.

7&#xFF09;&#x968F;&#x7740;&#x4E0D;&#x65AD;&#x5730;&#x5408;&#x5E76;&#xFF0C;&#x5927;&#x7684;HFile&#x6587;&#x4EF6;&#x4F1A;&#x8D8A;&#x6765;&#x8D8A;&#x5927;&#xFF0C;&#x5F53;&#x8FBE;&#x5230;&#x4E00;&#x5B9A;&#x9608;&#x503C;&#xFF08;2.0&#x7248;&#x672C;&#x4E4B;&#x540E;&#x6700;&#x7EC8;10G&#xFF09;&#x7684;&#x65F6;&#x5019;&#xFF0C;&#x4F1A;&#x89E6;&#x53D1;&#x5206;&#x88C2;&#x673A;&#x5236;&#xFF08;split&#xFF09;,&#x5C06;&#x5927;&#x7684;HFile&#x6587;&#x4EF6;&#x8FDB;&#x884C;&#x4E00;&#x5206;&#x4E3A;&#x4E8C;&#xFF0C;&#x540C;&#x65F6;&#x7BA1;&#x7406;&#x8FD9;&#x4E2A;&#x5927;&#x7684;HFile&#x7684;region&#x4E5F;&#x4F1A;&#x88AB;&#x4E00;&#x5206;&#x4E3A;&#x4E8C;&#xFF0C;&#x5F62;&#x6210;&#x4E24;&#x4E2A;&#x65B0;&#x7684;region&#x548C;&#x4E24;&#x4E2A;&#x65B0;&#x7684;HFile&#x6587;&#x4EF6;&#xFF0C;&#x4E00;&#x5BF9;&#x4E00;&#x7684;&#x8FDB;&#x884C;&#x7BA1;&#x7406;&#xFF0C;&#x5C06;&#x539F;&#x6765;&#x65E7;&#x7684;region&#x548C;&#x5206;&#x88C2;&#x4E4B;&#x524D;&#x5927;&#x7684;HFile&#x6587;&#x4EF6;&#x6162;&#x6162;&#x5730;&#x5C31;&#x4F1A;&#x4E0B;&#x7EBF;&#x5904;&#x7406;&#x3002;

2.3、Region的分裂策略

region中存储的是一张表的数据，当region中的数据条数过多的时候，会直接影响查询效率。当region过大的时候，region会被拆分为两个region，HMaster会将分裂的region分配到不同的regionserver上，这样可以让请求分散到不同的RegionServer上，已达到负载均衡 , 这也是HBase的一个优点。

ConstantSizeRegionSplitPolicy

0.94版本前，HBase region的默认切分策略当region中最大的store大小超过某个阈值(hbase.hregion.max.filesize=10G)之后就会触发切分，一个region等分为2个region。但是在生产线上这种切分策略却有相当大的弊端（切分策略对于大表和小表没有明显的区分）：
阈值(hbase.hregion.max.filesize)设置较大对大表比较友好，但是小表就有可能不会触发分裂，极端情况下可能就1个，形成热点，这对业务来说并不是什么好事。
如果设置较小则对小表友好，但一个大表就会在整个集群产生大量的region，这对于集群的管理、资源使用、failover来说都不是一件好事。
IncreasingToUpperBoundRegionSplitPolicy

0.94版本~2.0版本默认切分策略总体看和ConstantSizeRegionSplitPolicy思路相同，一个region中最大的store大小大于设置阈值就会触发切分。
但是这个阈值并不像ConstantSizeRegionSplitPolicy是一个固定的值，而是会在一定条件下不断调整，调整规则和region所属表在当前regionserver上的region个数有关系. region split阈值的计算公式是：
设regioncount：是region所属表在当前regionserver上的region的个数
阈值 = regioncount^3 * 128M * 2，当然阈值并不会无限增长，最大不超过MaxRegionFileSize（10G),当region中最大的store的大小达到该阈值的时候进行region split 例如：
第一次split阈值 = 1^3 * 256 = 256MB
第二次split阈值 = 2^3 * 256 = 2048MB
第三次split阈值 = 3^3 * 256 = 6912MB
第四次split阈值 = 4^3 * 256 = 16384MB > 10GB，因此取较小的值10GB
后面每次split的size都是10GB了特点
相比ConstantSizeRegionSplitPolicy，可以自适应大表、小表；
在集群规模比较大的情况下，对大表的表现比较优秀
对小表不友好，小表可能产生大量的小region，分散在各regionserver上
小表达不到多次切分条件，导致每个split都很小，所以分散在各个regionServer上
SteppingSplitPolicy

2.0版本默认切分策略相比 IncreasingToUpperBoundRegionSplitPolicy 简单了一些
region切分的阈值依然和待分裂region所属表在当前regionserver上的region个数有关系
如果region个数等于1，切分阈值为flush size 128M * 2
否则为MaxRegionFileSize。

这种切分策略对于大集群中的大表、小表会比 IncreasingToUpperBoundRegionSplitPolicy 更加友好，小表不会再产生大量的小region，而是适可而止。

2.4、Compaction（合并）操作

Minor Compaction：

指选取一些小的、相邻的StoreFile将他们合并成一个更大的StoreFile，在这个过程中不会处理已经Deleted或Expired的Cell。一次 Minor Compaction 的结果是更少并且更大的StoreFile。

Major Compaction：

指将 所有的StoreFile合并成一个StoreFile，这个过程会清理三类没有意义的数据： 被删除的数据、 TTL过期数据、 版本号超过设定版本号的数据。另外，一般情况下，major compaction时间会持续比较长，整个过程会消耗大量系统资源，对上层业务有比较大的影响。因此线上业务都会将关闭自动触发major compaction功能，改为手动在业务低峰期触发。

Original: https://www.cnblogs.com/bfy0221/p/16717178.html
Author: 伍点
Title: Hbase概述与读写流程

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/684058/

转载文章受原作者版权保护。转载请注明原作者出处！

技术杂谈

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

[]织梦CMS首页调用分类信息栏目及列表方法

不懂代码，搜索学习一晚上，都是说调用特定栏目分类信息列表的，用这个代码 {dede:arclistsg row=’10’ titlelen=’2…

技术杂谈 2023年5月30日
0075
高精度PTP时钟服务器（PTP网络时钟同步）技术参数书

高精度PTP时钟服务器（PTP网络时钟同步）技术参数书高精度PTP时钟服务器（PTP网络时钟同步）技术参数书京准电子科技官微——ahjzsz 一、PTP网络时钟服务器产品概述 …

技术杂谈 2023年6月21日
0099
人体的数学美思考

人贵为万物之灵长，并不仅仅只是”会思考的芦苇”，造化在赐与人智慧的同时，也将最美的形体一并赠赏，从数学角度而言，人的形体构造不仅符合物理力学法则，而且还暗合…

技术杂谈 2023年5月31日
0072
【转】iPhone is not available. Please reconnect the device

原文网址：https://blog.csdn.net/baidu_40537062/article/details/107396905 我的手机是iOS13.5，Xcode是11….

技术杂谈 2023年6月1日
0079
MAC Golang环境搭建

下载golang 下载地址:https://golang.google.cn/dl/ 根据MAC左上角苹果图标->关于本机，即可查看芯片类型安装golang 在下载中双…

技术杂谈 2023年6月21日
0066
城市选择器

效果源码 https://github.com/YouXianMing/Animations ; // // CustomCityPickerViewController.m /…

技术杂谈 2023年6月1日
00102
CVer想知道的都在这里了，一起分析下《中国计算机视觉人才调研报告》吧！

最近闲来无事，老潘以一名普通算法工程师的角度，结合自身以及周围人的情况，理性也感性地分析一下极市平台前些天发布的 2020年度中国计算机视觉人才调研报告。以下的”计…

技术杂谈 2023年7月10日
0084
python3GUI–天气预报小工具By:PyQt5（附源码）

@ 一．准备工作二．预览 1.启动 2.添加城市三．设计流程 1.UI设计(草图) 2.UI设计（QT设计师） 3.解释四．源代码五．总结之前用tk写过一款python3…

技术杂谈 2023年6月21日
0090
iotop【转】

一、简介： iotop：一款类似top的I/O监控工具，只显示正在产生I/O的进程或线程。 iotop监控的主要项：进程/线程的I/O的读写带宽进程/线程swapin的耗时占比…

技术杂谈 2023年5月30日
0068
Podman基础用法

Podman基础 1、什么是Podman？ Podman是一种开源的Linux原生工具，旨在根据开放容器倡议(Open Container Initiative，OCI)标准开发、…

技术杂谈 2023年6月21日
0083
Django admin实现TextField字段changelist页面换行、空格正常显示

问题背景在Django后台的使用admin view绑定model后，可以很方便的通过网页对底层的数据表进行增删查改操作。在实际工作中有一些数据字段会存储了json或者其他包含换…

技术杂谈 2023年6月21日
00100
买不起炼丹炉了：谈一谈特殊时期的显卡情况

原文首发于公主号「oldpan博客」-> 原文链接在此~ 前言前一阵子突然有了配主机的想法。呃，当然是为了搞深度学习。想象一下，亲手买下自己心仪的配件，然后用心组装起…

技术杂谈 2023年7月11日
00112
SQL55 分页查询employees表，每5行一页，返回第2页的数据

LIMIT子句本题链接表结构如下所示。 +——–+————+——&#8…

技术杂谈 2023年7月11日
0082
dremio 当前支持的权限

了解dremio 当前支持的权限，可以让给你我们更好的处理以及学习dremio的安全控制机制数据集权限 alter 对于system，space，source，folder，pd…

技术杂谈 2023年5月30日
00118
深入理解Apollo核心机制之本地缓存——你知道Apollo把你的配置缓存到哪里了吗？

入口 ApolloApplicationContextInitializer （它实现了 ApplicationContextInitializer接口，并重写了initializ…

技术杂谈 2023年7月25日
0061
1.Spring Boot 的认识

以前开发我们都是使用springMVC去开发，但是现在我们全部已经使用springboot了，因为它很方便，我也是便于从头梳理一下springboot，让自己更加深入了结sprin…

技术杂谈 2023年7月24日
0062

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

Hbase概述与读写流程

一、Hbase概述

1.1、HBase是如何基于hadoop提供实时性呢？

1.2、稀疏性

1.3、数据模型

1.4、Hbase区域

1.4.1、Memstore 与 storefile

1.5、Hbase系统架构

1.5.1、组件介绍

Client

Zookeeper

Master

RegionServer

HLog(WAL log)：

Region

理解难点

二、Hbase读写流程

2.1、架构图

2.2、读流程

2.3、写流程

2.3、Region的分裂策略

2.4、Compaction（合并）操作

Minor Compaction：

Major Compaction：

大家都在看