HDFS角色DataNode

2023年5月25日下午11:42 • 大数据 • 阅读 78

1 工作机制

一个数据块在DataNode上以文件形式存储在磁盘上，包括两个文件，一个是数据本身，一个是元数据包括数据块的长度，块数据的校验和，以及时间戳。
DataNode启动后向NameNode注册，通过后，周期性（1小时）的向NameNode上报所有的块信息。
心跳是每3秒一次，心跳返回结果带有NameNode给该DataNode的命令如复制块数据到另一台机器，或删除某个数据块。如果超过10分钟没有收到某个DataNode的心跳，则认为该节点不可用。
集群运行中可以安全加入和退出一些机器。

2 存储结构

DataNode不需要显式地格式化；关键文件和目录结构如下：

1、HDFS块数据存储于blk_前缀的文件中，包含了被存储文件原始字节数据的一部分。

2、每个block文件都有一个.meta后缀的元数据文件关联。该文件包含了一个版本和类型信息的头部，后接该block中每个部分的校验和。

3、每个block属于一个block池，每个block池有自己的存储目录，该目录名称就是该池子的ID（跟NameNode的VERSION文件中记录的block池ID一样）。

当一个目录中的block达到64个（通过dfs.datanode.numblocks配置）的时候，DataNode会创建一个新的子目录来存放新的block和它们的元数据。这样即使当系统中有大量的block的时候，目录树也不会太深。同时也保证了在每个目录中文件的数量是可管理的，避免了多数操作系统都会碰到的单个目录中的文件个数限制（几十几百上千个）。

如果dfs.datanode.data.dir指定了位于在不同的硬盘驱动器上的多个不同的目录，则会通过轮询的方式向目录中写block数据。需要注意的是block的副本不会在同一个DataNode上复制，而是在不同的DataNode节点之间复制。

3 存储数据模型

1、文件线性切割成块（Block）（按字节切割）

[root@node1 ~][root@node1 ~]hello gtjin1.....hello gtjin100......

2、Block分散存储在集群节点中
3、单一文件Block大小一致，文件与文件可以不一致

hdfs dfs  -D  dfs.blocksize=1048576  -D dfs.replication=2 -put hello.txt  /

4、Block可以设置副本数，副本分散在不同节点中

a) 副本数不要超过DataNode节点数量

b) 承担计算

c) 容错
5、文件上传可以设置Block大小和副本数

6、已上传的文件Block副本数可以调整，大小不变

7、只支持一次写入多次读取；对同一个文件，一个时刻只有一个写入者

8、可以append追加数据
优势：

一个文件的大小可以大于网络中任意一个节点的磁盘容量
使用抽象块而非整个文件作为存储单元，大大简化存储子系统的设计
块非常适合用于数据备份进而提供数据容错能力和提高可用性

Original: https://blog.51cto.com/u_15704423/5434919
Author: wx62be9d88ce294
Title: HDFS角色DataNode

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/516910/

转载文章受原作者版权保护。转载请注明原作者出处！

大数据

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

从零开始快速入门Transformer注意力机制

1 目的本文提供相关视频和笔记，以便初学者快速入门Transformer注意力机制。 2 重要模块 2.1 基础公式 Transformer的常见基础公式为A t t e n t…

大数据 2023年5月28日
0071
Mac安装Homebrew

镜像下载、域名解析、时间同步请点击阿里云开源镜像站一、简介 Homebrew是一款包管理工具，目前支持macOS和Linux系统。主要有四个部分组成：brew、homebrew-…

大数据 2023年5月27日
0082
数据库系统概念第六版mysql加载university数据库

数据库系统概念第六版mysql加载university数据库课本提供的是SQLite的数据库.db文件格式，网上大多数都是用SQLite数据库的创建表（DDL）语句来创建的，…

大数据 2023年11月11日
0037
docker-compose搭建kafka集群

mkdir kafka cd kafka 编写docker-compose.yml version: ‘3’ services: zookeeper: image: ‘bitnam…

大数据 2023年5月28日
0071
spring-boot-starter-data-redis介绍

大数据 2023年11月15日
0044
Springboot+JWT+Redis实现登陆登出功能

大数据 2023年11月15日
0049
CSAPP 之 ShellLab 详解

前言本篇博客将会详细介绍 CSAPP 之 ShellLab 的完成过程，实现一个简易（lou）的 shell。tsh 拥有以下功能：可以执行外部程序支持四个内置命令。这些名称…

大数据 2023年5月27日
0066
运维之红帽管理员篇—–6. 分区规划及使用、 LVM逻辑卷、管理交换空间

SIX DAY 总结笔记： MBR/msdos 分区模式1~4个主分区,或者 0~3个主分区+1个扩展分区(n最大支持容量为 2.2TB 的磁盘; 扩展分区不能格式化) fdisk…

大数据 2023年5月26日
0061
ElasticSearch 7.8.x技术整理4 – 高级篇（续）

0、前言变更原由：昨晚更新博客之后，第一次出现有人看得到，有人又看不到，我也不知道我设置了什么地方，所以我把原博客删了，重新发布另外：其中一些理论与前面的知识点相关，所以我没有…

大数据 2023年5月26日
0070
一站式Flink&Spark平台解决方案——StreamX

大家好，我是独孤风。今天为大家推荐的是一个完全开源的项目StreamX。该项目的发起者Ben也是我的好朋友。 *什么是StreamX *，StreamX 是Flink & …

大数据 2023年6月2日
0090
04-项目部署到Linux

三、项目部署之前我们讲解Linux操作系统时，就提到，我们服务端开发工程师学习Linux系统的目的就是将来我们开发的项目绝大部分情况下都需要部署在Linux系统中。那么在本章节，…

大数据 2023年5月27日
0055
关于sparksql调优的一些操作

1、查看执行计划1、直接sql查看: explain select … from … 2、ds.explain()2、执行计划的处理流程sql代码 -&gt…

大数据 2023年6月3日
0069
Hive-3.1.3安装配置运行

前置：使用的hoadoop版本为3.3.3，可以自行下载安装。Index of /apache/hadoop/common/hadoop-3.3.3 https://mirror…

大数据 2023年11月13日
0038
[前端]跨域相关问题

[前端]跨域相关问题原创 james_karon2022-08-05 08:42:05博主文章分类：前端 ©著作权文章标签跨域 javascript 文章分类 Hadoop …

大数据 2023年5月24日
0069
Kafka本身的架构

Producer(生产者)生产消息以Topic(主题)为单位进行存储.消费者组订阅主题消费内容. Producer生产者写数据可能写到TopicA-Partition0 分区 ,也…

大数据 2023年5月25日
0068
多租户的实现

多租户是指软件架构支持一个实例服务多个用户（Customer），每一个用户被称之为租户（Tenant），软件给予租户可以对系统进行部分定制的能力，如用户界面颜色或业务规则，但是他们…

大数据 2023年6月3日
0091

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

HDFS角色DataNode

1 工作机制

2 存储结构

3 存储数据模型

大家都在看