hudi clustering 数据聚集（二）

2023年5月26日下午11:21 • 大数据 • 阅读 59

小文件合并解析

执行代码：

import org.apache.hudi.QuickstartUtils._
import scala.collection.JavaConversions._
import org.apache.spark.sql.SaveMode._
import org.apache.hudi.DataSourceReadOptions._
import org.apache.hudi.DataSourceWriteOptions._
import org.apache.hudi.config.HoodieWriteConfig._

val t1 = "t1"
val basePath = "file:///tmp/hudi_data/"
val dataGen = new DataGenerator(Array("2020/03/11"))
// 生成随机数据100条
val updates = convertToStringList(dataGen.generateInserts(100))
val df = spark.read.json(spark.sparkContext.parallelize(updates, 1));

df.write.format("org.apache.hudi").

    options(getQuickstartWriteConfigs).

    option(PRECOMBINE_FIELD_OPT_KEY, "ts").

    option(RECORDKEY_FIELD_OPT_KEY, "uuid").

    option(PARTITIONPATH_FIELD_OPT_KEY, "partitionpath").

    option(TABLE_NAME, t1).

    // 每次写入的数据都生成一个新的文件
    option("hoodie.parquet.small.file.limit", "0").

    // 每次操作之后都会进行clustering操作
    option("hoodie.clustering.inline", "true").

    // 每4次提交就做一次clustering操作
    option("hoodie.clustering.inline.max.commits", "4").

    // 指定生成文件最大大小
    option("hoodie.clustering.plan.strategy.target.file.max.bytes", "1073741824").

    // 指定小文件大小限制，当文件小于该值时，可用于被 clustering 操作
    option("hoodie.clustering.plan.strategy.small.file.limit", "629145600").

    mode(Append).

    save(basePath+t1);

// 创建临时视图，查看当前表内数据总个数
spark.read.format("hudi").load(basePath+t1).createOrReplaceTempView("t1_table")
spark.sql("select count(*) from t1_table").show()

以上示例中，指定了进行 clustering 的触发频率：每4次提交就触发一次，并指定了文件相关大小：生成新文件的最大大小、小文件最小大小。

执行步骤：

1、生成数据，插入数据。

查看当前磁盘上的文件：

查看表内数据个数：

查看 spark-web 上该 sql 执行读取的文件个数：

所以，当前表中共100条数据，磁盘上生成一个数据文件，在查询该表数据时，只读取了一个文件。

2、重复上面操作两次。

查看当前磁盘上的文件：

查看表内数据个数：

查看 spark-web 上该 sql 执行读取的文件个数：

到目前为止，我们已经提交了三个写操作，每个操作生成一个数据文件，总共生成了三个数据文件。在查询所有数据时，我们需要从三个文件中读取数据。

[En]

So, so far, we have submitted three write operations, each generating one data file, and a total of three data files have been generated. When querying all the data, we need to read data from three files.

3、再进行一次数据插入：

查看当前磁盘上的文件：

查看表内数据个数：

查看 spark-web 上该 sql 执行读取的文件个数：

结论：

1、配置了hoodie.parquet.small.file.limit之后，每次提交新数据，都会生成一个数据文件。

2、在 clustering 之前，每次读取表所有数据的时候，都需要读取所有文件。

3、提交第4次数据之后，触发了 clustering ，生成了一个更大的文件，此时再读取所有数据的时候，就只需要读取合并后的大文件即可。在.hoodie文件夹下，也可以看到 replacecommit 的提交：

小文件合并+sort columns解析

执行代码：

import org.apache.hudi.QuickstartUtils._
import scala.collection.JavaConversions._
import org.apache.spark.sql.SaveMode._
import org.apache.hudi.DataSourceReadOptions._
import org.apache.hudi.DataSourceWriteOptions._
import org.apache.hudi.config.HoodieWriteConfig._

val t1 = "t1"
val basePath = "file:///tmp/hudi_data/"
val dataGen = new DataGenerator(Array("2020/03/11"))

var a = 0;
for (a  50").show()
}

执行代码分析

与前面的代码相比，此代码已在几个方面进行了修改：

[En]

This code has been modified in several ways than the previous code:

1、增加了for循环：

因为我们已经知道了在8次提交之后，小文件会合并大文件，所以一个for循环，做8次提交，我们直接看结果就行。

2、增加了 hoodie.clustering.plan.strategy.sort.columns 配置：

这是主要的考点。此配置对指定的列进行排序。

[En]

This is the main test point. This configuration sorts the specified columns.

即，当做 clustering 的时候，hudi 会重新读取所有文件，并根据指定的列做排序，这样可以把相关的数据聚集在一起，可以做更好的查询过滤（后面会演示说明），而我们要做的对比，就是以 fare 为条件查询数据，观察在 clustering 前后，hudi 会读取的文件个数。

我们想要的结果是，在 clustering 之前，由于没有根据 fare 对数据任何处理，符合过滤条件的数据会分布在各个文件，所以会读取的文件个数很多，过滤效果差。而在 clustering 之后，会根据 fare 列对数据做重新分布，符合过滤条件的数据较为集中，那么读取的数据就会比较少，过滤效果较好。

3、修改了 hoodie.clustering.plan.strategy.target.file.max.bytes 和 hoodie.clustering.plan.strategy.small.file.limit

我们想测的是，clustering 前后过滤的效果，所以文件个数不能够被改变（否则4个文件合并成1个文件后，读取数据时也只会读取1个文件，就看不出来sort是否有效果），所以这里把该值设置成两个较为近似的值，使其既能够触发 clustering，又能够在 clustering 前后文件个数相同。

执行结果：

查看当前磁盘文件：

查看第5次的sql过滤结果：

查看第6次的sql过滤结果：

查看第7次的sql过滤结果：

查看最后一次的sql过滤结果：

结论：

1、在 clustering 之前，过滤 fare 列时，会读取所有的数据。

比如，在执行第5次过滤时，此时表总共有50000行数据，hudi就会扫描50000行数据；在执行第6次过滤时，此时表总共有60000行数据，hudi就会扫描60000行数据；在执行第7次过滤时，此时表总共有70000行数据，hudi就会扫描70000行数据，

2、在 clustering 之后，数据文件个数不变的情况下（前后都是8个数据文件），在第8次过滤时，能够有效应用sort columns的重排列数据，将本应扫描80000行数据降低到只扫描了50405行数据，过滤效果明显提升很多！!

Original: https://www.cnblogs.com/payapa/p/15545911.html
Author: 努力爬呀爬
Title: hudi clustering 数据聚集（二）

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/522673/

转载文章受原作者版权保护。转载请注明原作者出处！

大数据

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

hive中判断一个字符串是否包含另一个子串的四种方法，sql中也可用

hive中判断一个字符串是否包含另一个子串的四种方法如果你有一个数据需求，需要从一个字段中，判断是否有一个字符串，你该怎么做一、方法1：like和rlike 最能想到的方法，用…

大数据 2023年11月12日
0045
Hive数据定义语言DDL

文章目录 * – + 1 Apache Hive客户端使用 + 2 Hive编译工具 + 3 Hive SQL DDL建表基础语法 + * 3.1 Hive数据类型详解…

大数据 2023年11月12日
0042
1、let和const -ES6学习笔记

基本概念 let命令: 用来声明一个变量，和var非常类似。const命令: 用来声明一个常量，常量就是不可以变化的量。用let声明变量的注意事项 1 使用let声明的变量，所声…

大数据 2023年5月24日
0058
android studio环境查看 sqlite 数据库

第一步 adb shell 输入adb shell命令之前先确保adb环境已经配置好并且模拟器已经处理root状态，模拟器没有root可以输入su获取root权限，获取root以后…

大数据 2023年11月10日
0041
九、N-gram语言模型

1.语言模型语言模型的作用是根据文本输入，计算文本内容是句子的概率。 ; 2 N-gram模型介绍 2.1 语言模型概念如果我们有一个由m 个词组成的序列（或者说一个句子），…

大数据 2023年5月28日
0075
numpy常用用法总结

numpy 简介各种用法介绍首先是numpy中的数据类型，ndarray类型，和标准库中的array.array并不一样。 ndarray.ndimthe number of …

大数据 2023年6月3日
0085
一文窥探近期大火的Transformer以及在图像分类领域的应用

Transformer是一种基于自注意力机制（self-attention mechanism）的深度神经网络，这一机制原先用于自然语言处理领域。受Transformer强大的表示…

大数据 2023年5月28日
00112
PbootCMS数据库sqlite转换mysql数据库详细教程介绍

今天介绍PbootCMS程序sqlite数据库转换mysql数据库教程，因为很多用户问我sqlite数据库和mysql数据库用哪个好？简单来说最好是使用mysql数据库，SQLit…

大数据 2023年11月11日
0027
Kafka简介和特点 *

什么是Kafka Kafka是一款分布式消息发布和订阅系统，它的特点是高性能、高吞吐量。最早设计的目的是作为LinkedIn的活动流和运营数据的处理管道。这些数据主要是用来对用户做…

大数据 2023年5月25日
0062
实验一：基于HMM的拼音转汉字程序|自然语言

啊哦~你想找的内容离你而去了哦内容不存在，可能为如下原因导致： ① 内容还在审核中 ② 内容以前存在，但是由于不符合新的规定而被删除 ③ 内容地址错误 ④ 作者删除了内容。可…

大数据 2023年5月28日
0078
System.out.println()标准输出方法性能影响一窥

System.out.println()标准输出方法性能影响一窥原创 wx628dd701970582022-05-26 01:48:14博主文章分类：安全领域 ©著作权文章标…

大数据 2023年5月26日
0057
数值优化：经典二阶确定性算法与对偶方法

1 牛顿法牛顿法[1]的基本思想是将目标函数在当前迭代点处进行二阶泰勒展开，然后最小化这个近似目标函数，即 [\underset{w\in \mathcal{W}}{\text{…

大数据 2023年6月3日
0083
自然语言处理技术

应用场景：•语音识别•词性tagging，一个词在不同的语境中的词性•命名实体识别•情感分析•文本生成文本文档的数值表达：1.独热编码2.the integer-encoding…

大数据 2023年5月28日
0049
黑马Redis学习——实战篇（1）

大数据 2023年11月16日
0043
redis集群的优缺点，5种使用方式优缺点介绍

大数据 2023年11月16日
0033

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

hudi clustering 数据聚集（二）

执行代码：

执行步骤：

结论：

执行代码：

执行代码分析

执行结果：

结论：

大家都在看