[离线计算-Spark|Hive] HDFS小文件处理

2023年5月26日下午11:03 • 大数据 • 阅读 62

HDFS 小文件过多会对hadoop 扩展性以及稳定性造成影响, 因为要在namenode 上存储维护大量元信息.

大量的小文件也可能导致查询分析性能不佳，因为查询引擎在执行查询时需要打开/读取/关闭太多的文件。

[En]

A large number of small files can also lead to poor query analysis performance because the query engine needs to open / read / close too many files when executing the query.

小文件解决思路

通常能想到的方案就是通过Spark API 对文件目录下的小文件进行读取，然后通过Spark的算子repartition操作进行合并小文件，repartition 分区数通过输入文件的总大小和期望输出文件的大小通过预计算而得。

总体流程如下：

该方案适合针对已发现有小文件问题,然后对其进行处理. 下面介绍下hudi是如何实现在写入时实现对小文件的智能处理.

Hudi小文件处理

Hudi会自管理文件大小，避免向查询引擎暴露小文件，其中自动处理文件大小起很大作用

在进行insert/upsert操作时，Hudi可以将文件大小维护在一个指定文件大小

hudi 小文件处理流程:

每次写入都会遵循此过程，以确保Hudi表中没有小文件。

核心代码：

写入文件分配：

org.apache.hudi.table.action.commit.UpsertPartitioner#assignInserts

 //&#x83B7;&#x53D6;&#x5206;&#x533A;&#x8DEF;&#x5F84;
 Set<string> partitionPaths = profile.getPartitionPaths();

 //&#x6839;&#x636E;&#x5148;&#x524D;&#x63D0;&#x4EA4;&#x671F;&#x95F4;&#x5199;&#x5165;&#x7684;&#x8BB0;&#x5F55;&#x83B7;&#x53D6;&#x5E73;&#x5747;&#x8BB0;&#x5F55;&#x5927;&#x5C0F;&#x3002;&#x7528;&#x4E8E;&#x4F30;&#x8BA1;&#x6709;&#x591A;&#x5C11;&#x8BB0;&#x5F55;&#x6253;&#x5305;&#x5230;&#x4E00;&#x4E2A;&#x6587;&#x4EF6;&#x4E2D;&#x3002;
 long averageRecordSize = averageBytesPerRecord(table.getMetaClient().getActiveTimeline().getCommitTimeline().filterCompletedInstants(),config);

 LOG.info("AvgRecordSize => " + averageRecordSize);

 //&#x83B7;&#x53D6;&#x6BCF;&#x4E2A;&#x5206;&#x533A;&#x6587;&#x4EF6;&#x8DEF;&#x5F84;&#x4E0B;&#x5C0F;&#x6587;&#x4EF6;
 Map<string, list<smallfile>> partitionSmallFilesMap =
        getSmallFilesForPartitions(new ArrayList<string>(partitionPaths), jsc);

for (String partitionPath : partitionPaths) {
     ...

     List<smallfile> smallFiles = partitionSmallFilesMap.get(partitionPath);
    //&#x672A;&#x5206;&#x914D;&#x7684;&#x5199;&#x5165;&#x8BB0;&#x5F55;
    long totalUnassignedInserts = pStat.getNumInserts();

    ...

    for (SmallFile smallFile : smallFiles) {
      //hoodie.parquet.max.file.size &#x6570;&#x636E;&#x6587;&#x4EF6;&#x6700;&#x5927;&#x5927;&#x5C0F;&#xFF0C;Hudi&#x5C06;&#x8BD5;&#x7740;&#x7EF4;&#x62A4;&#x6587;&#x4EF6;&#x5927;&#x5C0F;&#x5230;&#x8BE5;&#x6307;&#x5B9A;&#x503C;
      //&#x7B97;&#x51FA;&#x6570;&#x636E;&#x6587;&#x4EF6;&#x5927;&#x5C0F; - &#x5C0F;&#x6587;&#x4EF6; &#x5C31;&#x662F;&#x5269;&#x4F59;&#x53EF;&#x4EE5;&#x5199;&#x5165;&#x6587;&#x4EF6;&#x5927;&#x5C0F;&#xFF0C; &#x9664;&#x4EE5;&#x5E73;&#x5747;&#x8BB0;&#x5F55;&#x5927;&#x5C0F;&#x5C31;&#x662F;&#x63D2;&#x5165;&#x7684;&#x8BB0;&#x5F55;&#x884C;&#x6570;
      long recordsToAppend = Math.min((config.getParquetMaxFileSize() - smallFile.sizeBytes) / averageRecordSize, totalUnassignedInserts);

        //&#x5206;&#x914D;&#x8BB0;&#x5F55;&#x5230;&#x5C0F;&#x6587;&#x4EF6;&#x4E2D;
        if (recordsToAppend > 0 && totalUnassignedInserts > 0) {
            // create a new bucket or re-use an existing bucket
            int bucket;
            if (updateLocationToBucket.containsKey(smallFile.location.getFileId())) {
              bucket = updateLocationToBucket.get(smallFile.location.getFileId());
              LOG.info("Assigning " + recordsToAppend + " inserts to existing update bucket " + bucket);
            } else {
              bucket = addUpdateBucket(partitionPath, smallFile.location.getFileId());
              LOG.info("Assigning " + recordsToAppend + " inserts to new update bucket " + bucket);
            }
            bucketNumbers.add(bucket);
            recordsPerBucket.add(recordsToAppend);
            //&#x51CF;&#x53BB;&#x5DF2;&#x7ECF;&#x5206;&#x914D;&#x7684;&#x8BB0;&#x5F55;&#x6570;
            totalUnassignedInserts -= recordsToAppend;
          }

        //&#x5982;&#x679C;&#x8BB0;&#x5F55;&#x6CA1;&#x6709;&#x5206;&#x914D;&#x5B8C;
        if (totalUnassignedInserts > 0) {
            //hoodie.copyonwrite.insert.split.size &#x6BCF;&#x4E2A;&#x5206;&#x533A;&#x6761;&#x6570;
            long insertRecordsPerBucket = config.getCopyOnWriteInsertSplitSize();
            //&#x662F;&#x5426;&#x81EA;&#x52A8;&#x8BA1;&#x7B97;&#x6BCF;&#x4E2A;&#x5206;&#x533A;&#x6761;&#x6570;
            if (config.shouldAutoTuneInsertSplits()) {
                insertRecordsPerBucket = config.getParquetMaxFileSize() / averageRecordSize;
            }

           //&#x8BA1;&#x7B97;&#x8981;&#x521B;&#x5EFA;&#x7684;bucket
           int insertBuckets = (int) Math.ceil((1.0 * totalUnassignedInserts) / insertRecordsPerBucket);

          ...

          for (int b = 0; b < insertBuckets; b++) {
            bucketNumbers.add(totalBuckets);
            if (b == insertBuckets - 1) {
              //&#x9488;&#x5BF9;&#x6700;&#x540E;&#x4E00;&#x4E2A;buket&#x5904;&#x7406;&#xFF0C;&#x5C31;&#x662F;&#x5199;&#x5B8C;&#x5269;&#x4E0B;&#x7684;&#x8BB0;&#x5F55;
              recordsPerBucket.add(totalUnassignedInserts - (insertBuckets - 1) * insertRecordsPerBucket);
            } else {
              recordsPerBucket.add(insertRecordsPerBucket);
            }
            BucketInfo bucketInfo = new BucketInfo();
            bucketInfo.bucketType = BucketType.INSERT;
            bucketInfo.partitionPath = partitionPath;
            bucketInfo.fileIdPrefix = FSUtils.createNewFileIdPfx();
            bucketInfoMap.put(totalBuckets, bucketInfo);
            totalBuckets++;
          }

        }

    }

}

</smallfile></string></string,></string>

 if (!commitTimeline.empty()) { // if we have some commits
      HoodieInstant latestCommitTime = commitTimeline.lastInstant().get();
      List<hoodiebasefile> allFiles = table.getBaseFileOnlyView()
          .getLatestBaseFilesBeforeOrOn(partitionPath, latestCommitTime.getTimestamp()).collect(Collectors.toList());

      for (HoodieBaseFile file : allFiles) {

        //&#x83B7;&#x53D6;&#x5C0F;&#x4E8E; hoodie.parquet.small.file.limit &#x53C2;&#x6570;&#x503C;&#x5C31;&#x4E3A;&#x5C0F;&#x6587;&#x4EF6;
        if (file.getFileSize() < config.getParquetSmallFileLimit()) {
          String filename = file.getFileName();
          SmallFile sf = new SmallFile();
          sf.location = new HoodieRecordLocation(FSUtils.getCommitTime(filename), FSUtils.getFileId(filename));
          sf.sizeBytes = file.getFileSize();
          smallFileLocations.add(sf);
        }
      }
    }

</hoodiebasefile>

UpsertPartitioner继承spark的Partitioner, hudi在写入的时候会利用spark 自定分区的机制优化记录分配到不同文件的能力, 从而达到在写入时不断优化解决小文件问题.

涉及到的关键配置:

hoodie.parquet.max.file.size：数据文件最大大小，Hudi将试着维护文件大小到该指定值；
hoodie.parquet.small.file.limit：小于该大小的文件均被视为小文件；
hoodie.copyonwrite.insert.split.size：单文件中插入记录条数，此值应与单个文件中的记录数匹配（可以根据最大文件大小和每个记录大小来确定）

在hudi写入时候如何使用、配置参数?

在写入hudi的代码中 .option中配置上述参数大小,如下:

本文主要介绍小文件的处理方法思路,以及通过阅读源码和相关资料学习hudi 如何在写入时智能的处理小文件问题新思路.Hudi利用spark 自定义分区的机制优化记录分配到不同文件的能力,达到小文件的合并处理.

Original: https://www.cnblogs.com/bigdata1024/p/15828375.html
Author: chaplinthink
Title: [离线计算-Spark|Hive] HDFS小文件处理

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/522597/

转载文章受原作者版权保护。转载请注明原作者出处！

大数据

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

Spark快速上手(5)Spark核心编程-RDD转换算子案例实操

RDD转换算子案例实操数据准备 agent.log：时间戳，省份，城市，用户，广告【中间字段使用空格分隔】数据集，提取码：Unsk 1516609143867 6 7 64 1…

大数据 2023年6月3日
0071
R语言使用Rtsne包进行TSNE分析：提取TSNE分析结果合并到原dataframe中、可视化tsne降维的结果、并圈定降维后不匹配的数据簇（tSNE identifying mismatch)

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、C币套餐、付费专栏及课程。 Original: https:…

大数据 2023年5月28日
0079
分模块实现SSM框架整合

前言大型Java项目都需要根据项目功能进行工程的细化； Maven项目多模块是用项目层次的划分，替代简单的包层次的划分，遵循了高内聚，低耦合的设计模式；工程细化的思想：分Jav…

大数据 2023年6月3日
0082
c#Sqlite类库

字符串转Datetime 采坑 1.注意保存到数据库的日期格式DateTime.Now.ToString(“yyyy-MM-dd HH:mm:ss”) 格式…

大数据 2023年11月11日
0020
pyspark读取hdfs文件并导入到hive中

大数据 2023年11月13日
0036
Play with docker 1.12

Docker v1.12 brings in its integrated orchestration into docker engine. Starting with Dock…

大数据 2023年5月29日
0072
SpringBoot + Redis实现布隆过滤器

大数据 2023年11月14日
0037
爱帝宫、喜喜母婴、大美股份、喜之家、福座母婴的日子好过吗？

文 | 陈三月子中心越来越”普通”了。曾经高段位玩家的游戏，转眼就飞入了”寻常”百姓家。科学坐月子观念的兴起，解锁了新式坐月子…

大数据 2023年5月26日
0044
ACL2021论文笔记——Semantic Representation for Dialogue Modeling

论文链接：Semantic Representation for Dialogue Modeling (aclanthology.org)https://aclanthology….

大数据 2023年5月28日
0070
新版Glance发布，更好用的Android数据库调试助手

本文同步发表于我的微信公众号，扫一扫文章底部的二维码或在微信搜索郭霖即可关注，每个工作日都有文章更新。 Glance是一个由我开发的用于调试Android数据库的开源库，无须借…

大数据 2023年11月11日
0057
【学习笔记】Python科学计算三维可视化(黄天羽、嵩天)（学习中。。）

0 导学目的：掌握利用三维效果表达科学和工程数据的能力传播一种思想：可视化技术是数据之眼内容组织：流体数据的标量可视化、矢量可视化实例三维扫描数据（模型/地形）可视化…

大数据 2023年6月3日
0088
CPA理论与Base理论

CPA理论：由于对系统或者数据进行了拆分，我们的系统不再是单机系统，而是分布式系统，针对分布式系统的CAP原理包含如下三个元素。 C:Consistency,一致性。在分布式系统…

大数据 2023年5月26日
0066
理财通app的设计与实现（一）

一、欢迎界面的设计与实现 1、界面效果图 2、前期准备工作（1）背景图片（3）样式文件 1：btn_style_one.xml （4）样式文件 2：btn_style_two….

大数据 2023年11月11日
0037
Linux串口编程

在嵌入式应用领域中，串口是最为常见的一种硬件通信接口。因为其具备协议简单，硬件电路精简等优势使得串口基本成为MCU、计算机或嵌入式产品的标配接口。本文仅介绍在Linux系统下串口编…

大数据 2023年5月27日
0063
每日一问 hive如何插入数据

使用Hive数据库，从数据库连接开始就遇到问题。 Hive数据库跟MYSQL不一样，需要使用DBeaver工具使用。打开DBeaver，添加Hive的IP地址之后，输入token，…

大数据 2023年6月3日
0097
Linux基础命令二

Linux基本原则小程序单打独斗，与小程序联手完成复杂任务 [En] Composed of Mini Program with a single purpose, combin…

大数据 2023年5月27日
0054

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

[离线计算-Spark|Hive] HDFS小文件处理

小文件解决思路

Hudi小文件处理

大家都在看