【HBASE】记一次HBase进行数据迁移，重建元数据

2023年6月11日下午9:41 • Python • 阅读 89

记一次HBase进行数据迁移，重建元数据

前情提要
正文
*
数据迁移
重建元数据
测试查询
后续的表修复
*
Multiple regions have the same startkey
Region not listed in hbase:meta or deployed on any region server.
Region state=FAILED_OPEN
Region not deployed on any region server
There is an overlap in the region chain
Region found in META, but not in HDFS or deployed on any region server
拷贝过程的其它问题
*
Distcp失败
Distcp调优

前情提要

由于早期部署人员和架构上留下的大坑，我们集群的RegionServer组件和其他组件共机严重，服务器负载高时，直接会导致RegionServer断联，出现永久RIT的情况，而且hbck无论怎么修复都不行，虽然业务对hbase的数据需求不是特别的严格，但是有时候应付演示也是要用的，在现有架构难以变动的情况下，想到提供一个小型的同版本集群，进行原始数据拷贝和region重建的工作进行尝试。

正文

数据迁移

首先要将远端Hbase存在HDFS上的数据进行迁移，这里直接使用distcp工具进行拷贝，拷贝前先确认对端的数据和本地要拷贝的数据目录，一般来说都是 /hbase/data/default/{表名}这样的路径:

为了减少对生产环境业务的影响，我的distcp工作都在新集群进行。这样mapreduce是使用新集群的资源运行：

hadoop distcp hdfs://cluster_old/hbase/data/default/tablename /hbase/data/default/

distcp执行期间会产生临时文件，等待任务的最终完成即可：

完成需要的表的拷贝后，此时进入hbase执行list命令已经能看到表名了，但是不可以进行查询，因为还没重建表的元数据：

重建元数据

这里也是直接使用hbase hbck工具进行元数据的重建，这里采用的是单个表单个表的进行：

 hbase hbck -repair tablename

测试查询

随便scan一下，因为现在locality不够，所以可能查询会比较慢，这个会慢慢好的：

; 后续的表修复

Multiple regions have the same startkey

最大的问题就是，原来的数据就已经有问题了，导致我迁移过来以后重建元数据依旧有问题！最恶心的就是 Multiple regions have the same startkey这个，还没发用hbck修复，写了个生成修复命令的脚本：


import os
import commands

def make_json(file):
    t = dict()
    with open(file) as f:
        for item in f:
            if "Multiple regions have the same startkey" in item:
                item = item.strip('\n')
                item = item.split(" ")
                region = item[2].strip(')')
                startkey = item[-1]
                if startkey not in t.keys():
                    t[startkey]=[]
                t[startkey].append(region)
    return t

def split_hdfs_result(l):
    t = dict()
    for i in l:
        k = i.split()[1]
        v = i.split()[0]
        t[k]=v
    return t

def check_hdfs_size(t):

    allpathsize_map = split_hdfs_result(commands.getoutput("hadoop fs -du /hbase/data/default/dm_user_perception_area_mark_d").split('\n'))

    for i in t.keys():
        maxregion = ''
        maxsize = 0
        for region in t[i]:

            path = os.path.join("/hbase/data/default/dm_user_perception_area_mark_d", region.split('.')[-2])

            try:
                if int(allpathsize_map[path]) > int(maxsize):
                    maxregion = region
                    maxsize = allpathsize_map[path]
            except KeyError as e:
                continue
        while maxregion in t[i]:
            t[i].remove(maxregion)
    return t

def make_shell(t):

    for k, v in t.items():
        li = list(set(v))
        for region in li:
            for i in ['info:regioninfo', 'info:seqnumDuringOpen', 'info:server', 'info:serverstartcode']:
                print("delete 'hbase:meta','{region}','{colum}'".format(region=region, colum=i))
                pass

    for k, v in t.items():
        li = list(set(v))
        for region in li:
            path = os.path.join("/hbase/data/default/dm_user_perception_area_mark_d", region.split('.')[-2])
            print("hadoop fs -rm -r {path}".format(path=path))

if __name__ == "__main__":
    a=make_json("hbase.log")
    a=check_hdfs_size(a)
    make_shell(a)

该脚本会在完成后打印出需要分别在hbase shell和hdfs中执行的命令：

Region not listed in hbase:meta or deployed on any region server.

修复使用fixMeta进行：

hbase hbck -fixMeta

Region state=FAILED_OPEN

如果出现这种问题，最好hbck detail一下，查看具体原因：

hbase hbck -details tablename

比如我这里就出现了一个问题，这个可以直接使用hbck修复：

hbase hbck -fixReferenceFiles tablename

Region not deployed on any region server

hbase hbck -fixAssignments tablename

There is an overlap in the region chain

hbase hbck -fixHdfsOverlaps tablename

Region found in META, but not in HDFS or deployed on any region server

hbase hbck -fixMeta tablename

拷贝过程的其它问题

Distcp失败

有一个表在拷贝的时候，出现异常，任务刚提交没多久就失败，报错是有没法get对应的文件：

第一个反映是块有问题，然后就去hbck了一下，结果是正常：
【HBASE】记一次HBase进行数据迁移，重建元数据

这下整蒙了，然后我本地get了一下，文件就是拿不下来。尬了，经过查阅资料，看到一个博客说了这个问题：参考博文

这次检查出来不少文件打印显示都是 openforwrite状态，而且Status为CORRUPT。经测试发现，这些文件无法get和cat。所以这里的” Cannot obtain block length for LocatedBlock “结合字面意思讲应该是当前有文件处于写入状态尚未关闭，无法与对应的datanode通信来成功标识其block长度。

于是我也尝试使用openforwrite检查，发现确实对应的块是CORRUPT状态：

于是我直接对待拷贝数据的全目录再进行了一次扫描，对于异常数据直接delete：

处理以后再次进行同步旧不会报错了：
【HBASE】记一次HBase进行数据迁移，重建元数据

数据删除是敏感操作，笔者是因为集群数据本身异常不能提供服务，经过沟通确认后以最快保证业务恢复为目的而进行的删除操作，作为运维人员一定要对数据安全保有敬畏之心！

; Distcp调优

使用Distcp过程中，遇到数据同步比较慢的情况，尝试了一些参数，直观感受是提高了同步速度，记录一下：

增加map数，-m 100，默认会使用20个map，在数据量较大的时候，提速效果明显；
-Dmapreduce.map.memory.mb=4096 增加map的容器内存，默认是1024M；
-Dmapreduce.reduce.memory.mb=4096 增加reduce的容器内存，默认是1024M；

最终使用命令：

hadoop distcp -Dmapreduce.map.memory.mb=4096 -Dmapreduce.reduce.memory.mb=4096 -m 100 hdfs://10.1.1.1:9000/hbase/data/default/tablename /hbase/data/default/

Original: https://www.cnblogs.com/Meepoljd/p/16625239.html
Author: 风灵动铭
Title: 【HBASE】记一次HBase进行数据迁移，重建元数据

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/601910/

转载文章受原作者版权保护。转载请注明原作者出处！

python

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

【Python数据科学快速入门系列 | 07】Matplotlib数据可视化基础入门（二）

这是机器未来的第53篇文章原文首发地址：https://blog.csdn.net/RobotFutures/article/details/126752099 ; 《Pytho…

Python 2023年8月31日
0076
pygame中rect.right rect.left rect.top rect.bottom与rect.x rect.y 的关系

在pygame中，引入对象，不免涉及到对象在屏幕中的位置。而这样的位置，通常需要用坐标进行表示。在pygame中，坐标采用笛卡尔坐标系，以左上角为坐标原点，水平向右的方向为x轴的…

Python 2023年9月19日
0064
twisted mysql_scrapy Pipeline使用twisted异步实现mysql数据插入

from twisted.enterprise import adbapi class MySQLAsyncPipeline: def open_spider(self, spid…

Python 2023年10月6日
0042
pytest — Allure报告

执行和生成报告： 1）在main文件中加入如下代码： 1）在main文件中加入如下代码： if __name__ == ‘__main__’: # 指定临时json文件生成位置 p…

Python 2023年9月11日
0056
MAC解决Python绘图中文无法显示问题

一、问题解析问题说明：电脑上安装了Python3.8，最近遇到绘图，无法将中文标签显示，显示为空白方框。原因：matplotlib默认的字体为英文字体，导致许多unicode编码…

Python 2023年9月1日
0045
Conda常用命令

目录应用场景说明一、创建虚拟环境二、激活/使用/进入某个虚拟环境三、退出当前环境四、复制某个虚拟环境五、删除某个环境六、查看当前所有环境七、查看当前虚拟环境下的所有…

Python 2023年9月7日
0055
scrapy splash 爬取图片学习心得

docker pull scrapinghub/splash 将宿主机 8050 端口映射到容器 8050 端口。 docker run -p 8050:8050 scraping…

Python 2023年10月3日
0055
总结了13条：Python2.x与3.x之间的区别

Python2.x和3.x到底有哪些区别，这不仅在你开发过程中需要考虑的，也是面试过程面试官经常会问及的。在Python 2.6之前，只支持 print "hello&…

Python 2023年11月9日
0045
python绘图颜色深浅代表数值_Python数据可视化绘图工具matplotlib浅试

数据可视化 matplotlib模块的使用 1、柱形图 1、应用场景：定性数据的分布展示说明：柱状图主要是应用在可视化数据的应用场景中例如：一个班级中学生的籍贯分布，下载一…

Python 2023年9月4日
0055
《吐血整理》高级系列教程-吃透Fiddler抓包教程(30)-Fiddler如何抓取Android7.0以上的Https包-番外篇

1.简介通过宏哥前边几篇文章的讲解和介绍想必大家都知道android7.0以上，有android的机制不在信任用户证书，导致https协议无法抓包。除非把证书装在系统信任的证书里…

Python 2023年10月17日
0051
[漏洞复现] [Vulhub靶机] OpenSSL Heartbleed Vulnerability (CVE-2014-0160)

免责声明：本文仅供学习研究，严禁从事非法活动，任何后果由使用者本人负责。 0x00 背景知识传输层安全协议SSL 安全套接字协议SSL（Secure Sockets Layer）…

Python 2023年6月12日
00105
python print() 函数的格式化字符串输出

通过使用浮点数、字符串说明 ptint() 函数的格式化打印方式，在开发过程中可以随心所欲的在控制台打印出我们需要的信息。【阅读全文】第一个是控制台中小数点的格式化打印方法。 …

Python 2023年5月24日
00101
【深入浅出 Yarn 架构与实现】3-2 Yarn Client 编写

上篇文章介绍了编写 Yarn Application 的整体框架流程，本篇文章将详细介绍其中 Client 部分的编写方式。一、Yarn Client 编写方法本篇代码已上传 …

Python 2023年10月15日
0049
【Python】Scrapy爬虫框架快速上手

Scrapy爬虫框架快速上手 1. 网络爬虫技术 2. Scrapy框架简介 3. Scrapy框架的基本构成 4. HTML基础 * 4.1 XPath 4.2 解析语法 5. …

Python 2023年10月3日
0061
轩小陌的Python笔记-day15 内置模块（剩余）和开发规范

day15 内置模块和开发规范目标：掌握常见的内置模块的使用及了解软件开发的规范。今日概要：内置模块 json time datetime re 开发规范主文件配置文件 …

Python 2023年8月15日
0064
为了追学姐，用python把她的照片做成了游戏，她看了…

大家好，我是Lex 喜欢欺负超人那个Lex划重点：马上就到毕业季了，你心中的那个学姐，你真的放下了吗？今天跟着lex，用pygame为你的学姐，定制开发一个拼图游戏【完整项目代码】…

Python 2023年8月1日
0088

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31