大数据Hadoop集群的扩容及缩容（动态添加删除节点）

2023年6月8日上午3:17 • Linux • 阅读 120

添加白名单和黑名单

白名单，表示在白名单的主机IP地址可以用来存储数据

企业中；配置白名单，可以尽量防止黑客恶意访问攻击。

配置白名单步骤如下：原文：sw-code

1）在NameNode节点的 /opt/module/hadoop-3.1.3/etc/hadoop目录创建 whitelist和 blacklist

创建白名单

vim whitelist

输入如下内容
hadoop102
hadoop103

创建黑名单

touch blacklist

2）修改 hdfs-site.xml

vim hdfs-site.xml


    dfs.hosts
    /opt/module/hadoop-3.1.3/etc/hadoop/whitelist

    dfs.hosts.exclude
    /opt/module/hadoop-3.1.3/etc/hadoop/blacklist

3）分发到所有节点

xsync whitelist blacklist hdfs-site.xml

4）第一次添加白名单必须重启集群，不是第一次，只需刷新NameNode节点即可

[hadoop@hadoop102 hadoop]$ myhadoop.sh stop
[hadoop@hadoop102 hadoop]$ myhadoop.sh start

5）在Web浏览器上查看DN，Namenode information

6）在hadoop104上执行上传数据失败，hadoop104上并没有副本

[hadoop@hadoop102 hadoop-3.1.3]$ hadoop fs -put NOTICE.txt /

7）二次修改白名单，增加Hadoop104，并分发

[hadoop@hadoop102 hadoop]$ vim whitelist
新增hadoop104
hadoop102
hadoop103
hadoop104
分发
[hadoop@hadoop102 hadoop]$ xsync whitelist

8）刷新NameNode

[hadoop@hadoop102 hadoop]$ hdfs dfsadmin -refreshNodes
Refresh nodes successful

9）再次查看Namenode information

服役新数据节点

1）需求

随着公司业务增长，数据量越来越大，原有的数据节点的容量已经不能满足存储数据的需求，需要在原有集群基础上动态添加新的数据节点。

2）环境准备

（1）在hadoop102主机上再克隆一台hadoop105主机

（2）修改IP地址和主机名称

sudo vim /etc/sysconfig/network-scripts/ifcfg-ens33
修改IPADDR
IPADDR=192.168.10.105

sudo vim /etc/hostname
hadoop105
重启
reboot

（3）删除 data和 logs目录

cd /opt/module/hadoop-3.1.3
rm -rf data/ logs/

（4）在所有节点的 hosts增加节点名

sudo vim /etc/hosts
新增
192.168.10.105  hadoop105

（5）启动HDFS和NodeManager

[hadoop@hadoop105 hadoop-3.1.3]$ hdfs --daemon start datanode
[hadoop@hadoop105 hadoop-3.1.3]$ yarn --daemon start nodemanager
[hadoop@hadoop105 hadoop-3.1.3]$ jps
1283 DataNode
1475 Jps
1389 NodeManager

（6）添加白名单（如果设置了白名单，需要这一步，否则忽略）

[hadoop@hadoop102 hadoop]$ vim whitelist
添加
hadoop105
分发，hadoop105单独设置一下
[hadoop@hadoop102 hadoop]$ xsync whitelist
刷新NameNode
[hadoop@hadoop102 hadoop]$ hdfs dfsadmin -refreshNodes
Refresh nodes successful

（7）查看 Namenode information

节点间数据均衡

开启数据均衡

[hadoop@hadoop105 hadoop-3.1.3]$ sbin/start-balancer.sh -threshold 10

参数10，代表的是集群中各个节点的磁盘空间利用率相差不超过10%，可根据实际情况进行调整。

停止负载均衡

[hadoop@hadoop105 hadoop-3.1.3]$ sbin/stop-balancer.sh

注意：由于HDFS需要启动单独的Rebalance Server来执行Rebalance操作，所以尽量不要再NameNode上执行 start-balancer.sh，而是找一台比较空闲的机器。

黑名单退役旧节点

1）编辑 /opt/module/hadoop-3.1.3/etc/hadoop目录下的 blacklist

vim blacklist

添加主机名（要退役的节点）

hadoop105

如果没有配置黑名单，需要在 hdfs-site.xml中配置


    dfs.hosts.exclude
    /opt/module/hadoop-3.1.3/etc/hadoop/blacklist

2）分发配置文件 balcklist hdfs-site.xml，所有节点都要修改

[hadoop@hadoop102 hadoop]$ xsync blacklist

3）刷新NameNode

[hadoop@hadoop102 hadoop]$ hdfs dfsadmin -refreshNodes
Refresh nodes successful

4）检查Web浏览器Namenode information，可以看到正在退役中。

5）等待退役节点状态为 Decommissioned（所有块已复制完成），停止该节点以及节点资源管理器。注意：如果副本数是3，服务的节点数量小于3，是不能退役成功的，需要修改副本数后才能退役。

[hadoop@hadoop105 hadoop-3.1.3]$ hdfs --daemon stop datanode
[hadoop@hadoop105 hadoop-3.1.3]$ yarn --daemon stop nodemanager
[hadoop@hadoop105 hadoop-3.1.3]$ jps
1941 Jps

6）如果数据不均衡，可以使用命令实现集群的平衡

[hadoop@hadoop102 hadoop-3.1.3]$ sbin/start-balancer.sh -threshold 10

Original: https://www.cnblogs.com/sw-code/p/16388176.html
Author: sw-code
Title: 大数据Hadoop集群的扩容及缩容（动态添加删除节点）

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/585568/

转载文章受原作者版权保护。转载请注明原作者出处！

Linux

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

聊聊Netty那些事儿之从内核角度看IO模型

从今天开始我们来聊聊Netty的那些事儿，我们都知道Netty是一个高性能异步事件驱动的网络框架。它的设计异常优雅简洁，扩展性高，稳定性强。拥有非常详细完整的用户文档。同时内置…

Linux 2023年6月6日
0075
机器学习：正态方程 python实现

前言一、算法介绍二、核心算法 1. 公式 2.python实现总结前言使用python简单实现机器学习中正态方程算法。一、算法介绍与梯度下降算法相比，正态方程同样用于…

Linux 2023年6月7日
0080
fork创建进程的步骤___Spring-boot-Starter启动器和其加载的过程___redis怎么监视正在执行的命令

fork创建进程的步骤我们都知道，在Linux中调用fork（）函数，会创建一个子进程，那么在创建这个子进程的过程中，发生了些什么事情？首先，我们要知道，fork（）函数其实是…

Linux 2023年5月28日
0098
jmeter学习记录–05–Beanshell2

学习beanshell时有不少的例子、遇到不少问题。在此记录下。测试实例列表 A1：使用Beanshell请求作为测试请求一个打包的Jar包，直接对其内的方法进行测试。第一步…

Linux 2023年5月28日
0094
ASCLL 字符码

信息在计算机上是用二进制数表示的，这种表示法让人很难理解。因此，计算机上都配有输入和输出设备，这些设备的主要目的就是以一种人类可阅读的形式将信息在这些设备上显示出来供人阅读理解。为…

Linux 2023年6月7日
0090
git reset 命令删除本地文件怎么恢复

执行 git reflog命令可以看到曾经执行过的操作，还有版本序号。执行 git reset –hard HEAD@{【填那个序号】}就可以恢复本地删除的文件了！ …

Linux 2023年6月14日
0098
Jmeter性能测试场景的创建和运行

目录性能测试场景的分析项目背景 Jmeter指标性能测试场景的设计以及准备 * 性能测试的总结性能测试场景的分析项目背景实际工作中，我们拿到一个项目一般来说都会是项…

Linux 2023年6月14日
0068
Jq 手机端输入框防止底部菜单被小键盘弹起

var winHeight = $(window).height(); //获取当前页面高度 $(window).resize(function () { var thisHeig…

Linux 2023年6月7日
0073
Shell脚本生成密码

利用 /dev/urando 生成密码密码以字母、数字、开头特殊符号多 for _ in {1..30};do tr -dc ‘~`!@#$%^&*()_+-={}:&…

Linux 2023年6月6日
0094
小团队如何妙用 JuiceFS

早些年还在 ENJOY 的时候, 就已经在用 JuiceFS, 并且一路伴随着我工作过的四家小公司, 这玩意对我来说, 已经成了理所应当不可或缺的基础设施, 对于我服务过的小团队而…

Linux 2023年6月14日
0096
zabbix4.0 本地安装详解及步骤

安装前说明下，下面安装过程中涉及selinux部分仅供参考，可能会导致启动服务时产生各种报错，作者也是在折腾了无数日夜后报错不断而放弃治疗，直接永久关闭了selinux（啊，没有s…

Linux 2023年6月8日
0093
MybatisPlus核心功能——实现CRUD增删改查操作 (包含条件构造器)

CRUD 官方文档：https://baomidou.com/（建议多看看官方文档，每种功能里面都有讲解）【本文章使用的mybatisplus版本为3.5.2】条件构造器一般都…

Linux 2023年6月7日
00105
python入门基础知识五（for循环、公共操作与推导式）

for循环 break终止循环 a = ‘abcd’ for i in a: … if i == ‘c’: … print("’c’ stands for ‘ce…

Linux 2023年6月7日
00114
通过过滤器实现前后端分离的跨域问题

跨域指的是浏览器不能执行其他网站的脚本。它是由浏览器的同源策略造成的，是浏览器对JavaScript施加的安全限制。在做前后端分离项目的时候就需要解决此问题。创建过滤器解决跨域问…

Linux 2023年6月7日
0089
最简单的，在win，linux中，用powershell，自动获取Let’s Encrypt证书方法

powershell传教士原创 2020-04-12，2022-05更新 Let’s Encrypt证书有效期3个月，支持泛域名【*.你的网站.net】。支持n天内（一…

Linux 2023年6月14日
0090
Ubuntu下使用apt-get命令查询并安装指定版本的软件

执行以下命令，查询软件所有的版本号 sudo apt-cache madison <package></package> 执行以下命令，安装指定版本的软件 …

Linux 2023年6月6日
0093

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30