Hadoop HDFS 3.2的部署

2023年6月2日下午11:59 • 大数据 • 阅读 139

之前写过HDFS 2.6的部署，最近项目中尝试使用最新的HDFS 3.2.1做离线存储，部署方式略有不同，所以这里再简单写一下，这里只涉及到存储因此不再配置yarn，只配置HDFS最基本的服务NameNode、DataNode、以及SecondaryNameNode，我这里用到的包是hadoop-3.2.1.tar.gz

部署之前主机名&hosts，防火墙，ssh互信，jdk这些都不用说了，一定要提前配置标准，jdk用1.8即可，我这里6台机器，计划是其中1个NameNode，1个SecondaryNameNode，6个都是DataNode，当然这里是最简单的配置没有做NameNode高可用，这个放到后来再写，由于hdfs每个节点配置都完全一样，所以在一个节点配置好发送到其他节点就可以啦，下面开始配置：

1). 解压hadoop到指定位置

[TencentCloudSDKException] code:FailedOperation.ServiceIsolate message:service is stopped due to arrears, please recharge your account in Tencent Cloud requestId:54c0f675-6cee-4e78-abed-1d6edee536dd

[En]

[TencentCloudSDKException] code:FailedOperation.ServiceIsolate message:service is stopped due to arrears, please recharge your account in Tencent Cloud requestId:a2135a84-6a9f-4357-b796-4a97199fa5c7

2). 编辑etc/hadoop/core-site.xml，在填入下面的配置：

fs.defaultFS和之前2.6配置一样，写namenode的主机名和自己定义的端口，由于9000有冲突，因此我这里用9001

io.file.buffer.size这个是写文件操作的缓冲区大小，默认是4096B，这里调大为128k

我这里配置上面两个就够了，另外还有临时文件目录hadoop.tmp.dir选项，需要也可以添加一下，完整的默认配置列表参考链接：https://hadoop.apache.org/docs/stable/hadoop-project-dist/hadoop-common/core-default.xml，对应当前目录下的share/doc/hadoop/hadoop-project-dist/hadoop-common/core-default.xml文件可以详细查看其它的参数

3). 编辑etc/hadoop/hdfs-site.xml，在填入下面的配置：

dfs.namenode.name.dir 配置namenode数据目录，这个目录启动时会自动创建

dfs.hosts 这个配置允许连接到namenode的主机列表，默认允许所有的主机，其实为了安全可以配置上集群所有节点的地址，对于集群内部所有节点的访问不限制，然后再根据需要添加外部客户端机器等，这里直接在本地磁盘创建一个文件即可，里面直接罗列所有的主机名，我这里是和配置文件放到了一块，方便同步到其他节点

dfs.blocksize 单个block的大小，hdfs上传文件会把文件按照块打散，这里使用的就是默认值，为256M

dfs.namenode.handler.count namenode处理rpc请求的并发数，默认是100，如果有更多的datanode或者并发比较高，则这里可以调大

dfs.datanode.data.dir datanode数据的本地存储目录，如果有多块盘可以用逗号分隔多个目录，这个目录启动时会自动创建

dfs.namenode.http-address 配置namenode界面，默认值就是：0.0.0.0:9870

dfs.replication 配置文件存储的副本数，默认为3

dfs.namenode.checkpoint.dir 配置检查节点的数据目录，即secondarynamenode的数据目录，这个目录启动时会自动创建

完成的默认配置参考链接：https://hadoop.apache.org/docs/stable/hadoop-project-dist/hadoop-hdfs/hdfs-default.xml或当前目录下的文件share/doc/hadoop/hadoop-project-dist/hadoop-hdfs/hdfs-default.xml

4). 配置etc/hadoop/hadoop-env.sh

必须配置的项是JAVA_HOME，如果安装java时已经配置到/etc/profile则可以不用配置，因为我这里是openjdk所以需要配置一下：export JAVA_HOME=/usr

HADOOP_HOME 建议配置一下，我这里是：export HADOOP_HOME=/opt/hadoop

HADOOP_LOG_DIR 日志目录，默认就是hadoop安装目录下的logs

HADOOP_PID_DIR hdfs服务的pid目录，默认是在/tmp

另外还有一些配置根据需要进行修改，当然上面这些配置都可以通过linux shell环境变量的方式设置，配置到/etc/profile或者/etc/profile.d/下面的变量文件中

5). 分发节点 & 格式化namenode & 启动服务

配置完上面的这些hdfs就算基本设置好了，然后可以将目录发送到所有的其他节点，然后再每个机器分别启动对应的服务，比如我这里节点1是namenode服务，节点2是secondarynamenode服务，节点1~6都是datanode服务，其中namenode服务和secondarynamenode服务最好分开不同的节点启动，发送完成之后先格式化namenode：

[TencentCloudSDKException] code:FailedOperation.ServiceIsolate message:service is stopped due to arrears, please recharge your account in Tencent Cloud requestId:c95593ab-f48b-4f8a-8a51-db5ec21a1d01

[En]

[TencentCloudSDKException] code:FailedOperation.ServiceIsolate message:service is stopped due to arrears, please recharge your account in Tencent Cloud requestId:308ffeaa-288c-4f49-ab92-f4d52083b8df

这样就启动服务了，执行jps可以看到对应节点的对应的进程名，然后可以浏览器访问http://namenode ip:9870可以看到namenode的界面

单独停止服务也非常简单，只需要将上面命令的start改成stop即可

6). 统一启动

上面单独启动的方式可能比较麻烦，也可以使用sbin/start-dfs.sh和sbin/stop-dfs.sh统一启动和停止，启动之前要配置hdfs的用户，否则会报错找不到对应的配置，其实是推荐使用hdfs专用的用户来启动而不是用root来启动，上面为了方便直接用root配置的，正常来说应该有hdfs专门的用户才对，现在修改etc/hadoop/hadoop-env.sh配置用户：

为了方便这里都配置成root，然后编辑etc/hadoop/workers文件里面默认是localhost，要修改成所有datanode节点的列表，启动时脚本会自动读取这个文件来启动datanode节点，格式和上面咱们配置的dfs.hosts完全一样，配置好了之后，然后就可以执行 sbin/start-dfs.sh 直接启动整个集群了，注意这个脚本默认启动的secondarynamenode节点和namenode是同一个节点，如果想更换节点还需要手动的进行调整.

上面就是hadoop hdfs 3存储部分的基本配置了，经过上面配置就可以开始使用hdfs进行文件的存储读取等操作了，更多的配置以后再继续分享，部署参考文档：https://hadoop.apache.org/docs/stable/hadoop-project-dist/hadoop-common/ClusterSetup.html

Original: https://www.cnblogs.com/freeweb/p/13065756.html
Author: 小得盈满
Title: Hadoop HDFS 3.2的部署

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/562305/

转载文章受原作者版权保护。转载请注明原作者出处！

大数据

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

hive从入门到放弃(三)——DML数据操作

上一篇给大家介绍了 hive 的 DDL 数据定义语言，这篇来介绍一下 DML 数据操作语言。数据写入数据导入部分默认数据文件格式为 textfile，每一列由’，…

大数据 2023年6月3日
0087
QGIS源码编译步骤详解——官方新方案

源码下载环境下载 Cygwin64 OSGeo4W CMAKE Visual Studio 2017 环境配置配置编译方案详细可见源码文件中INSTALL.md。源码下载…

大数据 2023年6月3日
0093
zabbix 代理服务器与 zabbix-snmp 监控

镜像下载、域名解析、时间同步请点击阿里云开源镜像站一、部署zabbix 代理服务器分布式监控的作用：分担 server 的集中式压力解决多机房间网络延迟问题 [En] so…

大数据 2023年5月27日
00108
Android第一行代码 Day06笔记

tips： EditText： setSelection()方法：将输入光标移到到文本的末尾 TextUtils.isEmpty()方法：对字符串进行非空判断，可以一次性进行两种空…

大数据 2023年11月10日
0033
【Windows 10】在sprint-boot中配置spatialite环境

写在前面的话前几天在deepin里配置好了spatialite的插件，没想到一样的代码在windows里跑的时候，出现了 no native library is found f…

大数据 2023年11月12日
0043
“200+语种，11种文档格式”，百度文档翻译API，真的很好用

五大功能亮点，全面满足您的需求覆盖主流文档格式，包括11种常见文档格式：doc、docx、xls、xlsx、ppt、pptx、xml、html、htm、txt、pdf 支持 20…

大数据 2023年5月28日
00108
.Net Core 处理跨域问题Response to preflight request doesn’t pass access control check: No ‘Access-Control-Allow-Origin’ header is present on the requested resource

网页请求报错：Response to preflight request doesn’t pass access control check: No ‘Ac…

大数据 2023年6月3日
0049
20211202完全对称日，我们一起来温习一下

[TencentCloudSDKException] code:FailedOperation.ServiceIsolate message:service is stopped …

大数据 2023年6月3日
0064
跟风试试ChatGPT

啊哦~你想找的内容离你而去了哦内容不存在，可能为如下原因导致： ① 内容还在审核中 ② 内容以前存在，但是由于不符合新的规定而被删除 ③ 内容地址错误 ④ 作者删除了内容。可…

大数据 2023年11月13日
0041
HDFS角色NameNode故障处理

NameNode故障后，可以采用如下两种方法恢复数据。1）将SecondaryNameNode中数据拷贝到NameNode存储数据的目录；（1）kill -9 NameNode进程…

大数据 2023年5月25日
0081
一个简单的购物车架构设计

购物车可以说是电商平台的一个标配了，起初是用于多种商品的结算，现在很多用户也把购物车当作临时收藏来使用，这里尝试做一个基本的购物车架构设计。用例分析 加&a…

大数据 2023年6月3日
0072
为JUnit测试提供高效的对象存储

从PostgreSQL下载一个相对较大的二进制数据文件的问题。在存储和获取这些数据方面有几个限制（所有的限制都可以在官方文档中找到）。为了解决这个问题，有人建议找到更合适的数据存储…

大数据 2023年6月3日
0072
流批一体开源项目ChunJun技术公开课 ——ChunJun同步Hive事务表

一键直达直播间一、直播介绍上两期渡劫同学为大家分享了 ChunJun 数据还原的 DDL 模块，想必大家对这一模块有了比较深入的了解，本期无倦同学将会为大家分享 Chu…

大数据 2023年5月25日
0069
Spring 中使用 @Scheduled 创建定时任务

一、定时任务触发条件 1、在 Application 启动类上添加：@EnableScheduling 2、含定时方法的类上添加注解：@Component，该注解将定时任务类纳入 …

大数据 2023年6月3日
00121
Unity—Mono.Data.Sqlite

Mono.Data.Sqlite 一、常用属性Depth:获取一个值，用于指示当前行的嵌套深度FieldCount：获取当前行中的列数HasRows：获取一个值，该值指示SQLDa…

大数据 2023年11月10日
0023
RedisConnectionFailureException: Unable to connect to Redis；

大数据 2023年11月15日
0028

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

Hadoop HDFS 3.2的部署

大家都在看