Hudi 0.11.0 + Flink1.14.4 + Hive + Flink CDC + Kafka 集成

2023年11月12日下午7:19 • 大数据 • 阅读 40

Hudi 0.11.0 + Flink1.14.4 + Hive + Flink CDC + Kafka 集成

一、环境准备

1.1 软件版本

Flink 1.14.4

Scala 2.11

CDH 6.1.0

Hadoop 3.0.0

Hive 2.1.1

Hudi 0.11.0

Flink CDC 2.2.0

Mysql 5.7

1.2 Flink 准备

下载flink 1.14.4 到$HUDI_HOME

wget https://archive.apache.org/dist/flink/flink-1.14.4/flink-1.14.4-bin-scala_2.11.tgz

解压

tar zxvf flink-1.14.4-bin-scala_2.11.tgz

下载flink-sql-connector

wget https://repo1.maven.org/maven2/com/ververica/flink-sql-connector-mysql-cdc/2.2.0/flink-sql-connector-mysql-cdc-2.2.0.jar
wget https://repo.maven.apache.org/maven2/org/apache/flink/flink-sql-connector-kafka_2.11/1.14.4/flink-sql-connector-kafka_2.11-1.14.4.jar

1.3 Hadoop 准备

设置Hadoop环境

export HADOOP_CONF_DIR=/etc/hadoop/conf

1.4 Hudi 准备

下载Hudi 0.11.0 到$HUDI_HOME

wget --no-check-certificate https://dlcdn.apache.org/hudi/0.11.0/hudi-0.11.0.src.tgz

解压

tar zxvf hudi-0.11.0.src.tgz

完成后进入 packaging/hudi-flink-bundle 目录，执行命令：

mvn clean install -DskipTests -Drat.skip=true -Pflink-bundle-shade-hive2

将packaging/hudi-flink-bundle/target/hudi-flink1.14-bundle_2.11-0.11.0.jar 拷贝到$HUDI_HOME/flink-1.14.4/lib/

1.5 Hive 准备

在 Hive 的根目录下创建 auxlib 文件夹
进入packaging/hudi-hadoop-mr-bundle 目录，执行命令：
mvn clean install -DskipTests
进入packaging/hudi-hive-sync-bundle 目录，执行命令：
mvn clean install -DskipTests
将上面两个打包好的jar包拷贝到 auxlib目录

hudi-hadoop-mr-bundle/target/hudi-hadoop-mr-bundle-0.10.1.jar
hudi-hive-sync-bundle/target/hudi-hive-sync-bundle-0.10.1.jar

1.6 注意

修改hudi-flink-bundle中的pom.xml文件的Hive版本为集群对应的版本

<properties>
  <hive.version>2.1.1-cdh6.1.0hive.version>
  <flink.bundle.hive.scope>compileflink.bundle.hive.scope>
properties>

<repository>
    <id>clouderaid>
    <url>https://repository.cloudera.com/artifactory/cloudera-repos/url>
repository>

二、kafka + flink + hudi + hive

2.1 启动Flink SQL

bin/yarn-session.sh -nm kafka2hudi -d -qu root.analysis -jm 2048 -tm 4096
bin/sql-client.sh embedded
SET execution.checkpointing.interval = 60000;

2.2 创建一个 kafka 的 source 和 hudi sink，启动 sql 流任务:

CREATE TABLE user_report_topic(
    uid string,
    userIp string,
    countryName string,
    countryCode string,
    regionName string,
    cityName string,
    ispName string,
    cVersion string,
    deviceId string,
    deviceType string,
    appType string,
    flagLevel Array<string>,
    visitType int,
    visitTime TIMESTAMP(3),
    WATERMARK FOR visitTime AS visitTime - INTERVAL '5' SECOND
    ) WITH (
      'connector' = 'kafka',
      'topic' = 'user_report_topic',
      'properties.group.id' = 'user_report_topic_group2',
      'scan.startup.mode' = 'earliest-offset',
      'properties.bootstrap.servers' = 'xx.xx.xx.25:9092,xx.xx.xx.26:9092,xx.xx.xx.27:9092',
      'format' = 'json'
    );

create table user_report_hudi(
  uid string,
  userIp string,
  countryName string,
  countryCode string,
  regionName string,
  cityName string,
  ispName string,
  cVersion string,
  deviceId string,
  deviceType string,
  appType string,
  PRIMARY KEY(uid) NOT ENFORCED
)
with (
  'connector' = 'hudi',
  'path' = 'hdfs:///hudi/data/user_report_hudi',
  'table.type' = 'MERGE_ON_READ',
  'write.bucket_assign.tasks' = '1',
  'write.tasks' = '1',
  'hive_sync.enable'= 'true',
  'hive_sync.mode'= 'hms',
  'hive_sync.metastore.uris'= 'thrift://xx.xx.xx.27:9083',
  'hive_sync.jdbc_url' = 'jdbc:hive2://xx.xx.xx.27:10000',
  'hive_sync.table'= 'user_report_hudi',
  'hive_sync.db'= 'test',
  'hive_sync.username'= 'admin',
  'hive_sync.password'= 'admin',
  'hive_sync.support_timestamp'= 'true'
);

insert into user_report_hudi select
  uid ,
  userIp ,
  countryName ,
  countryCode ,
  regionName ,
  cityName ,
  ispName ,
  cVersion ,
  deviceId ,
  deviceType ,
  appType
from user_report_topic;

通过 Flink UI 可以查看作业运行状态。

2.3 Hive 查询

MOR 生成两个表,COW 只生成一个表

--MOR rt表会比ro表多查询未合并的log数据，(合并的策略可以根据commits数量or时间调整，默认compaction.delta_commits=5)
test.user_report_hudi_ro --查询parquet
test.user_report_hudi_rt --查询parquet 和 log
--COW
test.user_report_hudi

查询 _rt表报错
日志如下

Caused by: java.lang.IllegalArgumentException: HoodieRealtimeRecordReader can only work on RealtimeSplit and not with hdfs://nameservice1/hudi/data/user_report_hudi/7445853b-1f0d-4d34-9638-74ffe7e99664_0-4-0_20220808134127564.parquet:0+452025
    at org.apache.hudi.common.util.ValidationUtils.checkArgument(ValidationUtils.java:40)
    at org.apache.hudi.hadoop.realtime.HoodieParquetRealtimeInputFormat.getRecordReader(HoodieParquetRealtimeInputFormat.java:310)
    at org.apache.hadoop.hive.ql.io.CombineHiveRecordReader.(CombineHiveRecordReader.java:68)
    ... 16 more

解决方法

set hive.input.format = org.apache.hudi.hadoop.hive.HoodieCombineHiveInputFormat;

三、flink cdc + kafka + flink + hudi + hive

3.1 MySQL

数据准备

USE test;
CREATE TABLE test.products (
  id INTEGER NOT NULL AUTO_INCREMENT PRIMARY KEY,
  name VARCHAR(255) NOT NULL,
  description VARCHAR(512)
);
ALTER TABLE test.products AUTO_INCREMENT = 101;

INSERT INTO test.products
VALUES (default,"scooter","Small 2-wheel scooter"),
       (default,"car battery","12V car battery"),
       (default,"12-pack drill bits","12-pack of drill bits with sizes ranging from #40 to #3"),
       (default,"hammer","12oz carpenter's hammer"),
       (default,"hammer","14oz carpenter's hammer"),
       (default,"hammer","16oz carpenter's hammer"),
       (default,"rocks","box of assorted rocks"),
       (default,"jacket","water resistent black wind breaker"),
       (default,"spare tire","24 inch spare tire");

CREATE TABLE test.orders (
  order_id INTEGER NOT NULL AUTO_INCREMENT PRIMARY KEY,
  order_date DATETIME NOT NULL,
  customer_name VARCHAR(255) NOT NULL,
  price DECIMAL(10, 5) NOT NULL,
  product_id INTEGER NOT NULL,
  order_status BOOLEAN NOT NULL
) AUTO_INCREMENT = 10001;

INSERT INTO test.orders
VALUES (default, '2020-07-30 10:08:22', 'Jark', 50.50, 102, false),
       (default, '2020-07-30 10:11:09', 'Sally', 15.00, 105, false),
       (default, '2020-07-30 12:00:30', 'Edward', 25.25, 106, false);

3.2 启动Flink SQL

bin/yarn-session.sh -nm mysql2hudi -d -qu root.analysis -jm 2048 -tm 4096
bin/sql-client.sh embedded
SET execution.checkpointing.interval = 60000;

3.3 Flink CDC

Mysql数据库中的表 products, orders 使用 Flink SQL CLI 创建对应的表，用于同步这些底层数据库表的数据

CREATE TABLE products (
    id INT,
    name STRING,
    description STRING,
    PRIMARY KEY (id) NOT ENFORCED
  ) WITH (
    'connector' = 'mysql-cdc',
    'hostname' = 'xx.xx.xx.73',
    'port' = '3306',
    'username' = 'root',
    'password' = '123',
    'database-name' = 'test',
    'table-name' = 'products'
  );

CREATE TABLE orders (
   order_id INT,
   order_date TIMESTAMP(0),
   customer_name STRING,
   price DECIMAL(10, 5),
   product_id INT,
   order_status BOOLEAN,
   PRIMARY KEY (order_id) NOT ENFORCED
 ) WITH (
   'connector' = 'mysql-cdc',
    'hostname' = 'xx.xx.xx.73',
    'port' = '3306',
    'username' = 'root',
    'password' = '123',
    'database-name' = 'test',
   'table-name' = 'orders'
 );

3.4 Kafka

创建kafka表

 CREATE TABLE products_cdc2kafka(
    id INT,
    name STRING,
    description STRING,
    PRIMARY KEY (id) NOT ENFORCED
    ) WITH (
      'connector' = 'kafka',
      'topic' = 'products_cdc2kafka_topic',
      'properties.group.id' = 'products_cdc2kafka_group',
      'scan.startup.mode' = 'earliest-offset',
      'properties.bootstrap.servers' = 'xx.xx.xx.25:9092,xx.xx.xx.26:9092,xx.xx.xx.27:9092',
      'format' = 'debezium-json'
    );

 CREATE TABLE orders_cdc2kafka(
   order_id INT,
   order_date TIMESTAMP(0),
   customer_name STRING,
   price DECIMAL(10, 5),
   product_id INT,
   order_status BOOLEAN,
   PRIMARY KEY (order_id) NOT ENFORCED
    ) WITH (
      'connector' = 'kafka',
      'topic' = 'orders_cdc2kafka_topic',
      'properties.group.id' = 'orders_cdc2kafka_group',
      'scan.startup.mode' = 'earliest-offset',
      'properties.bootstrap.servers' = 'xx.xx.xx.25:9092,xx.xx.xx.26:9092,xx.xx.xx.27:9092',
      'format' = 'debezium-json'
    );

将数据写入kafka

insert into products_cdc2kafka
select * from products;

insert into orders_cdc2kafka
select * from orders;

3.5 Hudi

创建hudi表 MOR

create table products_2hudi (
    id INT,
    name STRING,
    description STRING,
    PRIMARY KEY (id) NOT ENFORCED
)
WITH (
  'connector' = 'hudi',
  'path' = 'hdfs:///hudi/data/products_2hudi',
  'table.type' = 'COPY_ON_WRITE',
  'write.bucket_assign.tasks' = '1',
  'write.tasks' = '1',
  'hive_sync.enable'= 'true',
  'hive_sync.mode'= 'hms',
  'hive_sync.metastore.uris'= 'thrift://xx.xx.xx.27:9083',
  'hive_sync.jdbc_url' = 'jdbc:hive2://xx.xx.xx.27:10000',
  'hive_sync.table'= 'products_2hudi',
  'hive_sync.db'= 'test',
  'hive_sync.username'= 'admin',
  'hive_sync.password'= 'admin',
  'hive_sync.support_timestamp'= 'true'
);

create table orders_2hudi (
   order_id INT,
   order_date TIMESTAMP(0),
   customer_name STRING,
   price DECIMAL(10, 5),
   product_id INT,
   order_status BOOLEAN,
   PRIMARY KEY (order_id) NOT ENFORCED
)
WITH (
  'connector' = 'hudi',
  'path' = 'hdfs:///hudi/data/orders_2hudi',
  'table.type' = 'MERGE_ON_READ',
  'write.bucket_assign.tasks' = '1',
  'write.tasks' = '1',
  'hive_sync.enable'= 'true',
  'hive_sync.mode'= 'hms',
  'hive_sync.metastore.uris'= 'thrift://xx.xx.xx.27:9083',
  'hive_sync.jdbc_url' = 'jdbc:hive2://xx.xx.xx.27:10000',
  'hive_sync.table'= 'orders_2hudi',
  'hive_sync.db'= 'test',
  'hive_sync.username'= 'admin',
  'hive_sync.password'= 'admin',
  'hive_sync.support_timestamp'= 'true'
);

将数据写入hudi

insert into products_2hudi
select * from products_cdc2kafka;

insert into orders_2hudi
select * from orders_cdc2kafka;

相同数据源MOR表和COW对比

create table orders_2hudi_cow2 (
   order_id INT,
   order_date TIMESTAMP(0),
   customer_name STRING,
   price DECIMAL(10, 5),
   product_id INT,
   order_status BOOLEAN,
   PRIMARY KEY (order_id) NOT ENFORCED
)
WITH (
  'connector' = 'hudi',
  'path' = 'hdfs:///hudi/data/orders_2hudi_cow2',
  'table.type' = 'COPY_ON_WRITE',
  'write.bucket_assign.tasks' = '1',
  'write.tasks' = '1',
  'hive_sync.enable'= 'true',
  'hive_sync.mode'= 'hms',
  'hive_sync.metastore.uris'= 'thrift://xx.xx.xx.27:9083',
  'hive_sync.jdbc_url' = 'jdbc:hive2://xx.xx.xx.27:10000',
  'hive_sync.table'= 'orders_2hudi_cow2',
  'hive_sync.db'= 'test',
  'hive_sync.username'= 'admin',
  'hive_sync.password'= 'admin',
  'hive_sync.support_timestamp'= 'true'
);

insert into orders_2hudi_cow2
select * from orders_cdc2kafka;

对比结果
在初始化数据时，MOR两个表Hive查询都没数据，但是目录hdfs:///hudi/data/orders_2hudi 中有log文件，并且log文件中有数据。
COW的表已经生成了parquet文件，并且Hive查询有数据

3.6 Hive查询

select * from  test.products_2hudi;
select * from  test.orders_2hudi_rt;
select * from  test.orders_2hudi_ro;

3.7 数据变更测试

Insert


INSERT INTO test.orders VALUES (default, '2022-04-30 10:08:22', 'Raj', 50.50, 101, false);

INSERT INTO test.orders VALUES (default, '2022-04-30 10:11:09', 'Terry', 15.00, 102, false);

INSERT INTO test.orders VALUES (default, '2022-04-30 12:00:30', 'Jackson', 25.25, 103, false);

INSERT INTO test.orders VALUES (default, '2022-04-30 12:01:30', 'xiaoming', 25.25, 104, false);

INSERT INTO test.orders VALUES (default, '2022-04-30 12:04:30', 'Walet', 25.25, 104, false);

INSERT INTO test.orders VALUES (default, '2022-04-30 12:05:30', 'jassy', 25.25, 104, false);

INSERT INTO test.orders VALUES (default, '2022-04-30 12:06:30', 'xiahua', 25.25, 104, false);

INSERT INTO test.orders VALUES (default, '2022-04-30 12:07:30', 'Tommmmm', 25.25, 104, false);

INSERT INTO test.orders VALUES (default, '2022-04-30 12:07:30', 'kkk', 25.25, 104, false);

Update


update test.orders set price=1000 where order_id =10030;

update test.orders set customer_name='tomy' where order_id =10029;

update test.orders set customer_name='xh' where order_id =10028;

update test.orders set customer_name='jasssssssy' where order_id =10027;

update test.orders set customer_name='waletttt' where order_id =10026;

Delete


delete from test.orders where order_id=10005;

delete from test.orders where order_id=10006;

delete from test.orders where order_id=10007;

delete from test.orders where order_id=10008;

delete from test.orders where order_id=10009;

delete from test.orders where order_id=10010;

The End.

Original: https://blog.csdn.net/zhangs_123/article/details/126252484
Author: dingjian1899
Title: Hudi 0.11.0 + Flink1.14.4 + Hive + Flink CDC + Kafka 集成

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/817692/

转载文章受原作者版权保护。转载请注明原作者出处！

大数据

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

个人项目—-基于TCP的文件传输系统

目录主体功能程序使用方法 1、运行客户端编辑 2、运行服务器 3、登录 4、注册 5、程序命令解析 6、传输文件（上传–cp、下载–lcp）具体代码…

大数据 2023年11月10日
0050
不知道如何制作可视化大屏？我教你！

[TencentCloudSDKException] code:FailedOperation.ServiceIsolate message:service is stopped …

大数据 2023年6月2日
0069
redis.conf详解之maxmemory

大数据 2023年11月16日
0033
【云原生】K8s pod优雅退出（postStart、terminationGracePeriodSeconds、preStop）

一、概述二、Pod 的生命周期三、pod的终止过程四、钩子函数（postStart 和 preStop）五、示例演示一、概述更新部署服务时，旧的 Pod 会终止，新 …

大数据 2023年6月3日
00156
关于Hive中的存储格式及压缩格式详解

最近面试，遇到了关于Hive的数据存储格式的问题，回答不尽人意，抽时间总结多看看关于Hive存储格式和压缩格式的内容。 Hive底层数据是以HDFS文件的形式存储在Hadoop中的…

大数据 2023年11月12日
0037
甄领科技携手“燕千云”，助力企业管理员工健康

导语： 3月份以来，一些地方的感染病例快速增长，已经波及多个省份，形势复杂严峻。当前，从全世界范围来看，新冠疫情仍处于高位，防控形势依然十分严峻。在这场没有硝烟的战”…

大数据 2023年6月3日
0072
Day57 Hive 分区表、数据加载和导出，简单数据查询以及函数

大数据 2023年11月14日
0044
table student has no column named age in “INSERT INTO student(age,name) VALUES (?,?)

在Android Studio中练习SQLite数据库时报错 E/SQLiteLog: (1) table student has no column named age in &…

大数据 2023年11月10日
0051
Linux 逻辑卷管理器（LVM）

LVM： LVM: Logical Volume Manager,可以实现动态的扩容和缩容。逻辑卷是一种逻辑上的管理方式，把一块或多块硬盘或分区逻辑的组合在一起，命令成一个卷组（V…

大数据 2023年5月27日
0069
VMware 虚拟机图文安装和配置 AlmaLinux OS 8.6 教程

前言：这是《VMware 虚拟机图文安装和配置 Rocky Linux 8.5 教程》一文的姐妹篇教程，如果你需要阅读它，请点击这里。2020 年，CentOS 宣布：计划未来将重…

大数据 2023年5月27日
0088
6.5 实训任务 HBase shell 常见命令的使用

6.5 实训任务 HBase shell 常见命令的使用原创 lanxiaofang2022-08-02 14:51:28博主文章分类：大数据技术基础 ©著作权文章标签 hba…

大数据 2023年5月24日
0058
dremio openjdk 11 docker 镜像

ARG JAVA_IMAGE="openjdk:11-jdk" FROM ${JAVA_IMAGE} as base LABEL maintainer=Drem…

大数据 2023年5月28日
0046
Three Logos CodeForces – 581D

using namespace std;int e,flag;char bd[110][110];void calculate(int x1,int y1,int x2,int y…

大数据 2023年5月26日
0063
4.2 Linux tar打包命令详解

Linux 系统中，最常用的归档（打包）命令就是 tar，该命令可以将许多文件一起保存到一个单独的磁带或磁盘中进行归档。不仅如此，该命令还可以从归档文件中还原所需文件，也就是打包的…

大数据 2023年5月27日
0065
koa2+better-sqlite3实现增删改查

在 Node.js 中实现增删改查（CRUD）功能通常涉及到与数据库_进行交互。下面我将为你提供一种使用 MongoDB _数据库_的示例来演示如何 _实现_这些功能。首先…

大数据 2023年11月10日
0040
Android源码分析-CursorWindow

在使用sqlite查询时，CursorWindow有2MB的内存大小限制（Android 4.4-Android 12），如果超出该大小会导致出现异常，进而影响业务。此时需要采用…

大数据 2023年11月12日
0035

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

Hudi 0.11.0 + Flink1.14.4 + Hive + Flink CDC + Kafka 集成

Hudi 0.11.0 + Flink1.14.4 + Hive + Flink CDC + Kafka 集成

一、环境准备

1.1 软件版本

1.2 Flink 准备

1.3 Hadoop 准备

1.4 Hudi 准备

1.5 Hive 准备

1.6 注意

二、kafka + flink + hudi + hive

2.1 启动Flink SQL

2.2 创建一个 kafka 的 source 和 hudi sink，启动 sql 流任务:

2.3 Hive 查询

三、flink cdc + kafka + flink + hudi + hive

3.1 MySQL

3.2 启动Flink SQL

3.3 Flink CDC

3.4 Kafka

3.5 Hudi

3.6 Hive查询

3.7 数据变更测试

大家都在看