[离线计算-Spark|Hive] 数据近实时同步数仓方案设计

2023年7月10日下午6:38 • 技术杂谈 • 阅读 59

最近阅读了大量关于hudi相关文章, 下面结合对Hudi的调研, 设计一套技术方案用于支持 MySQL数据CDC同步至数仓中，避免繁琐的ETL流程，借助Hudi的upsert, delete 能力，来缩短数据的交付时间.

组件版本：

Hadoop 2.6.0
Hive 1.1.0
hudi 0.7.0
spark 2.4.6

架构设计

写入主要分成两部分全量数据和增量数据:

历史数据通过bulkinsert 方式同步写入hudi
增量数据直接消费写入使用hudi的upsert能力,完成数据合并

写入hudi在hdfs的格式如下:

hudi

hudi 如何处理binlog upsert,delete 事件进行数据的合并？

upsert好理解, 依赖本身的能力.

针对mysql binlog的delete 事件,使用记录级别删除:

如果此值为true则为删除记录

示例代码如下:

StructField(_HOODIE_IS_DELETED, DataTypes.BooleanType, true, Metadata.empty());

dataFrame.write.format("org.apache.hudi")
               .option("hoodie.table.name", "test123")
               .option("hoodie.datasource.write.operation", "upsert")
               .option("hoodie.datasource.write.recordkey.field", "uuid")
               .option("hoodie.datasource.write.partitionpath.field", "partitionpath")
               .option("hoodie.datasource.write.storage.type", "COPY_ON_WRITE")
               .option("hoodie.datasource.write.precombine.field", "ts")
               .mode(Append)
               .save(basePath)

写入hudi及同步数据至hive,需要注意的事情和如何处理?

hudi如何处理新增字段?

当使用Spark查询Hudi数据集时，当数据的schema新增时，会获取单个分区的parquet文件来推导出schema，若变更schema后未更新该分区数据，那么新增的列是不会显示，否则会显示该新增的列；若未更新该分区的记录时，那么新增的列也不会显示，可通过 mergeSchema来控制合并不同分区下parquet文件的schema，从而可达到显示新增列的目的

hudi 写入时指定mergeSchema参数 为true

spark如何实现hudi表数据的写入和读取?

Spark支持用户自定义的format来读取或写入文件，只需要实现对应的（RelationProvider、SchemaRelationProvider）等接口即可。而Hudi也自定义实现了 org.apache.hudi/ hudi来实现Spark对Hudi数据集的读写，Hudi中最重要的一个相关类为 DefaultSource，其实现了 CreatableRelationProvider#createRelation接口，并实现了读写逻辑

kyuubi

如何读取hudi表数据？

使用网易开源的kyuubi

kyuubi架构图：

支持HiveServer2 Thrift API协议，可以通过beeline 连接

hive: beeline -u jdbc:hive2://ip:10000 -n userName -p

kyuubi: beeline -u jdbc:hive2://ip:8333 -n userName -p

hudi 元数据使用hive metastore

spark来识别加载hudi表

实现hudi表与hive表关联查询

kyuubi 支持SparkContext的动态缓存，让用户不需要每次查询都动态创建SparkContext。作为一个应用在yarn 上一直运行，终止beeline 连接后，应用仍在运行，下次登录，使用SQL可以直接查询

本文主要针对hudi进行调研, 设计MySQL CDC 近实时同步至数仓中方案, 写入主要利用hudi的upsert以及delete能力. 针对hudi 表的查询,引入kyuubi 框架,除了增强平台 spark sql作为即席查询服务的能力外,同时支持查询hudi表,并可以实现hudi表与hive表的联合查询, 同时对原有hive相关服务没有太大影响.

Original: https://www.cnblogs.com/bigdata1024/p/15815623.html
Author: chaplinthink
Title: [离线计算-Spark|Hive] 数据近实时同步数仓方案设计

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/683369/

转载文章受原作者版权保护。转载请注明原作者出处！

技术杂谈

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

StringUtils工具类

1、 public static boolean isEmpty(String str) 判断某字符串是否为空 3、public static boolean isBlank(St…

技术杂谈 2023年7月11日
0086
「实用」打造自我感觉非常漂亮的Mac终端

背景（今天我是一个美妆博主😊）突然发现自己使用的iterm2终端样式有些朴素，为了让她看起来花枝招展的，我决定给她打扮打扮。毕竟每天面对她的时间比对象还多…&#823…

技术杂谈 2023年7月24日
0098
HTB靶场记录之Jarvis

1、靶机介绍这次的靶机是Jarvis，很适合练手，难点在提权。 2、信息收集这里我先用autorecon进行信息收集。 Autorecon集成nmap，nikto等操作可以比较…

技术杂谈 2023年5月31日
0082
Spring Boot动态权限变更实现的整体方案

1、前言在Web项目中，权限管理即权限访问控制为网站访问安全提供了保障，并且很多项目使用了Session作为缓存，结合AOP技术进行token认证和权限控制。权限控制流程大致…

技术杂谈 2023年6月21日
00102
Mac升级node.js

第一步，先查看本机node.js版本： $ node -v 第二步，清除node.js的cache： $ sudo npm cache clean -f 第三步，安装 n 工具，这…

技术杂谈 2023年5月31日
0080
访问权限控制

一.编译单元 1-1 概念一个Java源代码文件通常被称为一个编译单元，每个编译单元的后缀需是.java，并且每个编译单元中最多只能有1个public类（当然，可以为0个）。 1…

技术杂谈 2023年7月23日
0094
Vim使用技巧(持续更新)

好记性不如烂笔头，在这里记录一些Vim使用技巧 vim配置 "拷贝同步&#…

技术杂谈 2023年6月21日
0096
Redis变慢？深入浅出Redis性能诊断系列文章(三)

（本文首发于”数据库架构师”公号，订阅”数据库架构师”公号，一起学习数据库技术，助力职业发展）本篇为Redis性能问题诊断系列的第…

技术杂谈 2023年7月25日
0065
费用流板子

#include using namespace std; const int MM=100005; int u,v,w,c,tmp,n,m,s,t,tot=1,flow,cost…

技术杂谈 2023年6月21日
0071
查看k8s 的 dashboard 的token

kubectl -n kube-system describe $(kubectl -n kube-system get secret -n kube-system -o name…

技术杂谈 2023年5月31日
0099
基于Multisim的buck降压斩波电路仿真

和boost电路相反，buck电路为DC-DC降压电路，搞了一下仿真发现低压情况下降压效率比較高，电压略微高一点降压效率就不敢恭维了。。不知道是怎么回事仿真电路：占空比D设置…

技术杂谈 2023年5月31日
0080
被迫开始学习Typescript —— class

TS 的 class 看起来和 ES6 的 Class 有点像，基本上差别不大，除了可以继承（实现）接口、私有成员、只读等之外。参考：https://typescript.bo…

技术杂谈 2023年5月31日
0084
gcc -g -o objdump & nm & addr2line ar & objcopy & readelf & gprof

-O设置一共有五种：-O0、-O1、-O2、-O3和-Os。你只能在/etc/make.conf里面设置其中的一种。除了-O0以外，每一个-O设置都会多启用几个选项，请查阅gcc…

技术杂谈 2023年5月31日
0050
实力总结四类Bean注入Spring的方式

一提到 Spring，大家最先想到的是啥？是 AOP和 IOC的两大特性？是 Spring中 Bean的初始化流程？还是基于 Spring的 Spring Cloud全家桶呢？今…

技术杂谈 2023年7月11日
0086
python-数据描述与分析2（利用Pandas处理数据缺失值的处理数据库的使用）

2.利用Pandas处理数据2.1 汇总计算当我们知道如何加载数据后，接下来就是如何处理数据，虽然之前的赋值计算也是一种计算，但是如果Pandas的作用就停留在此，那我们也许只是看…

技术杂谈 2023年7月25日
0085
hive的常用函数与连续登录问题

hive的查询语法（DQL）全局排序 order by 会对输入做全局排序，因此只有一个reducer，会导致当输入规模较大时，需要较长的计算时间使用 order by子句排序…

技术杂谈 2023年7月11日
0086

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

[离线计算-Spark|Hive] 数据近实时同步数仓方案设计

架构设计

hudi

kyuubi

大家都在看