为什么HDFS的block不能设置太大或太小

寻址时间为传输时间的1%时,则为最佳状态。

一个大文件会被分为多个block存在hdfs中,而每个block对于磁盘来说就是一个文件。

该hdfs的大文件寻址时间是等于磁盘寻找每个block文件的总和。

我们知道,hdfs存储大文件会把该文件分为多个块。

在mapreduce中,一个mapreduce程序要处理该文件,每个map都是一个客户端,但每个map都只分别下载一个block,对于整个mapreduce程序来说,下载该文件的时间就是下载一个块的时间。当block size比较小时,那么对于整个mapreduce来说,下载这个文件的时间就会很小。

再比如,本来存储空间只有8T,但是要把10T的数据存进去,就会导致存不进去,就会一直在寻找合适的位置来存储这10T数据。

HDFS块的大小设置主要取决于磁盘传输速度

Original: https://www.cnblogs.com/chelseafan/p/15037397.html
Author: 想睡觉的人
Title: 为什么HDFS的block不能设置太大或太小

原创文章受到原创版权保护。转载请注明出处:https://www.johngo689.com/710926/

转载文章受原作者版权保护。转载请注明原作者出处!

(0)

大家都在看

  • Collection和Collections有什么区别?

    1、java.util.Collection 是一个集合接口。它提供了对集合对象进行基本操作的通用接口方法。Collection接口在Java 类库中有很多具体的实现。Collec…

    技术杂谈 2023年5月30日
    093
  • 支持MPI的hdf5库的编译

    作者:朱金灿 因为最近要研究并行I/O,据说hdf5文件格式可以支持并行I/O,深度学习框架Caffe用的是hdf格式,所以决定把hdf5库的源码编译一下。 首先得安装MPI的开发…

    技术杂谈 2023年5月31日
    0100
  • re相关正则表达式(re.sub、re.I 、re.S、re.M)

    re.I 表示忽略大小写re.S 表示全文匹配re.M 表示全文拼配行尾段位的字符或者数字,影响^和$ re.sub 表示替换使用方法:re.sub(pattern, repl, …

    技术杂谈 2023年7月25日
    062
  • FlinkSQL 之乱序问题

    乱序问题 在业务编写 FlinkSQL 时, 非常常见的就是乱序相关问题, 在出现问题时,非常难以排查,且无法稳定复现,这样无论是业务方,还是平台方,都处于一种非常尴尬的地步。 在…

    技术杂谈 2023年6月21日
    087
  • WorkflowFoundation4.0ActivityDataModel

    http://blogs.msdn.com/b/flow/archive/2010/04/27/workflow-foundation-4-0-activity-data-mode…

    技术杂谈 2023年7月24日
    078
  • mysql 内部函数

    1. group_concat 返回一个字符串结果,该结果由分组中的值连接组合而成。 函数语法: group_concat( [DISTINCT] 要连接的字段 [Order BY…

    技术杂谈 2023年7月25日
    065
  • Servlet 学习总结

    Servlet学习笔记 Servlet学习 学习视频为:https://www.bilibili.com/video/BV1Ta4y1H7Vc IDEA的使用 IDEA的简介 ID…

    技术杂谈 2023年7月11日
    083
  • 一篇文章说清 webpack、vite、vue-cli、create-vue 的区别

    webpack、vite、vue-cli、create-vue 这些都是什么?看着有点晕,不要怕,我们一起来分辨一下。 先看这个表格: 脚手架 vue-cli create-vue…

    技术杂谈 2023年5月31日
    080
  • 记一次docker compose的低级错误

    记一次docker compose的低级错误 问题 ​ 今天在学习dockercompose的时候,启动docker compose up,结果却出现异常 Error respon…

    技术杂谈 2023年6月21日
    0104
  • 每天一个 HTTP 状态码 200

    200 OK 表示请求成功,一切安好… 200 OK 话不多说,这个状态码应该是最最最常用的了,无人不知,无人不晓;就是表示请求成功的意思, 你若安好,便是晴天。 摘自…

    技术杂谈 2023年7月11日
    081
  • 三、DOS命令

    常用的DOS命令 #盘符切换 D: #查看当前目录下的所有文件 dir #切换目录 cd+空格+/d+空格+路径 #返回上一级 cd+空格+.. #清理屏幕 cls #退出终端 e…

    技术杂谈 2023年6月21日
    091
  • 文件的压缩与打包

    文件的压缩与打包 常用文件拓展名 *.tar.gz tar程序打包的文件,并且经过gzip的压缩 *.tar.bz2 tar程序打包的文件,并且经过bzip2的压缩 tar 命令,…

    技术杂谈 2023年7月11日
    062
  • 使用EasyPOI导出excel示例

    package com.mtoliv.sps.controller; import java.io.IOException; import java.io.OutputStream…

    技术杂谈 2023年5月31日
    090
  • SkyWalking

    目前主要的一些 APM (Application Performance Management) 工具有: Cat、Zipkin、Pinpoint、SkyWalking, 监控维度…

    技术杂谈 2023年5月31日
    087
  • CMU15-445 数据库导论 Storage01

    CMU15-445 01 Storage 1. 参考资料: [1] CMU15-445:Database Systems [Andy Pavlo] https://15445.co…

    技术杂谈 2023年6月21日
    089
  • bloomRpc下载

    404. 抱歉,您访问的资源不存在。 可能是网址有误,或者对应的内容被删除,或者处于私有状态。 代码改变世界,联系邮箱 contact@cnblogs.com 园子的商业化努力-困…

    技术杂谈 2023年5月31日
    0102
亲爱的 Coder【最近整理,可免费获取】👉 最新必读书单  | 👏 面试题下载  | 🌎 免费的AI知识星球