Flink CDC同步MySQL分库分表数据到Iceberg数据湖实践

2023年6月3日下午4:40 • 大数据 • 阅读 79

Flink CDC: 捕获数据库完整的变更日志记录增、删、改等所有数据. Flink在1.11版本开始引入了Flink CDC功能，并且同时支持Table & SQL两种形式。Flink SQL CDC是以SQL的形式编写实时任务，并对CDC数据进行实时解析同步。相比于传统的数据同步方案，该方案在实时性、易用性等方面有了极大的改善。

Flink CDC 同步优势:

业务解耦：无需入侵业务，和业务完全解耦，也就是业务端无感知数据同步的存在。
性能消耗：业务数据库性能消耗小，数据同步延迟低。
同步易用：使用SQL方式执行CDC同步任务，极大的降低使用维护门槛。
数据完整：完整的数据库变更记录，不会丢失任何记录，Flink 自身支持 Exactly Once。

数据湖: 支持存储多种原始数据格式、多种计算引擎、高效的元数据统一管理和海量统一数据存储。

Apache Iceberg: 是一个大规模数据分析的开放表格式, 是数据湖的一种解决方案.

Iceberg 设计特点:

ACID：不会读到不完整的commit数据，基于乐观锁实现，支持并发commit，支持Row-level delete，支持upsert操作。
增量快照：Commit后的数据即可见，在Flink实时入湖场景下，数据可见根据checkpoint的时间间隔来确定的，增量形式也可回溯历史快照。
开放的表格式：对于一个真正的开放表格式，支持多种数据存储格式，如：parquet、orc、avro等，支持多种计算引擎，如：Spark、Flink、Hive、Trino/Presto。
流批接口支持：支持流式写入、批量写入，支持流式读取、批量读取

环境准备

准备Flink 、mysql docker镜像测试环境:

docker-compose.yml:

version: '2.1'
services:
  sql-client:
    user: flink:flink
    image: yuxialuo/flink-sql-client:1.13.2.v1
    depends_on:
      - jobmanager
      - mysql
    environment:
      FLINK_JOBMANAGER_HOST: jobmanager
      MYSQL_HOST: mysql
    volumes:
      - shared-tmpfs:/tmp/iceberg
  jobmanager:
    user: flink:flink
    image: flink:1.13.2-scala_2.11
    ports:
      - "8081:8081"
    command: jobmanager
    environment:
      - |
        FLINK_PROPERTIES=
        jobmanager.rpc.address: jobmanager
    volumes:
      - shared-tmpfs:/tmp/iceberg
  taskmanager:
    user: flink:flink
    image: flink:1.13.2-scala_2.11
    depends_on:
      - jobmanager
    command: taskmanager
    environment:
      - |
        FLINK_PROPERTIES=
        jobmanager.rpc.address: jobmanager
        taskmanager.numberOfTaskSlots: 2
    volumes:
      - shared-tmpfs:/tmp/iceberg
  mysql:
    image: debezium/example-mysql:1.1
    ports:
      - "3306:3306"
    environment:
      - MYSQL_ROOT_PASSWORD=123456
      - MYSQL_USER=mysqluser
      - MYSQL_PASSWORD=mysqlpw

volumes:
  shared-tmpfs:
    driver: local
    driver_opts:
      type: "tmpfs"
      device: "tmpfs"

在docker-compose.yml文件同目录下启动flink 组件：

docker-compose up -d

该命令将以 detached 模式自动启动 Docker Compose 配置中定义的所有容器。

本教程需要的 jar 包都已经被打包进 SQL-Client 容器中了,

flink-sql-connector-mysql-cdc-2.1.0.jar
flink-shaded-hadoop-2-uber-2.7.5-10.0.jar
iceberg-flink-1.13-runtime-0.13.0-SNAPSHOT.jar

当 Iceberg 0.13.0 版本发布后，你也可以在 apache official repository 下载到支持 Flink 1.13 的 iceberg-flink-runtime jar 包。

准备测试数据

docker-compose exec mysql mysql -uroot -p123456

创建两个不同的数据库，并在每个数据库中创建两个表，作为 user 表分库分表下拆分出的表。

 CREATE DATABASE db_1;
 USE db_1;
 CREATE TABLE user_1 (
   id INTEGER NOT NULL PRIMARY KEY,
   name VARCHAR(255) NOT NULL DEFAULT 'flink',
   address VARCHAR(1024),
   phone_number VARCHAR(512),
   email VARCHAR(255)
 );
 INSERT INTO user_1 VALUES (110,"user_110","Shanghai","123567891234","user_110@foo.com");

 CREATE TABLE user_2 (
   id INTEGER NOT NULL PRIMARY KEY,
   name VARCHAR(255) NOT NULL DEFAULT 'flink',
   address VARCHAR(1024),
   phone_number VARCHAR(512),
   email VARCHAR(255)
 );
INSERT INTO user_2 VALUES (120,"user_120","Shanghai","123567891234","user_120@foo.com");

CREATE DATABASE db_2;
USE db_2;
CREATE TABLE user_1 (
  id INTEGER NOT NULL PRIMARY KEY,
  name VARCHAR(255) NOT NULL DEFAULT 'flink',
  address VARCHAR(1024),
  phone_number VARCHAR(512),
  email VARCHAR(255)
);
INSERT INTO user_1 VALUES (110,"user_110","Shanghai","123567891234", NULL);

CREATE TABLE user_2 (
  id INTEGER NOT NULL PRIMARY KEY,
  name VARCHAR(255) NOT NULL DEFAULT 'flink',
  address VARCHAR(1024),
  phone_number VARCHAR(512),
  email VARCHAR(255)
);
INSERT INTO user_2 VALUES (220,"user_220","Shanghai","123567891234","user_220@foo.com");

首先，使用如下的命令进入 Flink SQL CLI 容器中：

docker-compose exec sql-client ./sql-client

Checkpoint 默认是不开启的，我们需要开启 Checkpoint 来让 Iceberg 可以提交事务。
并且，mysql-cdc 在 binlog 读取阶段开始前，需要等待一个完整的 checkpoint 来避免 binlog 记录乱序的情况。

— Flink SQL
— 每隔 3 秒做一次 checkpoint

Flink SQL> SET execution.checkpointing.interval = 3s;

创建 source 表 user_source 来捕获MySQL中所有 user 表的数据，在表的配置项 database-name , table-name 使用正则表达式来匹配这些表。
并且，user_source 表也定义了 metadata 列来区分数据是来自哪个数据库和表。

CREATE TABLE user_source (
    database_name STRING METADATA VIRTUAL,
    table_name STRING METADATA VIRTUAL,
    id DECIMAL(20, 0) NOT NULL,
    name STRING,
    address STRING,
    phone_number STRING,
    email STRING,
    PRIMARY KEY (id) NOT ENFORCED
  ) WITH (
    'connector' = 'mysql-cdc',
    'hostname' = 'mysql',
    'port' = '3306',
    'username' = 'root',
    'password' = '123456',
    'database-name' = 'db_[0-9]+',
    'table-name' = 'user_[0-9]+'
  );

创建 sink 表 all_users_sink，用来将数据加载至 Iceberg 中。
在这个 sink 表，考虑到不同的 MySQL 数据库表的 id 字段的值可能相同，我们定义了复合主键 (database_name, table_name, id)。

CREATE TABLE all_users_sink (
    database_name STRING,
    table_name    STRING,
    id          DECIMAL(20, 0) NOT NULL,
    name          STRING,
    address       STRING,
    phone_number  STRING,
    email         STRING,
    PRIMARY KEY (database_name, table_name, id) NOT ENFORCED
  ) WITH (
    'connector'='iceberg',
    'catalog-name'='iceberg_catalog',
    'catalog-type'='hadoop',
    'warehouse'='file:///tmp/iceberg/warehouse',
    'format-version'='2'
  );

使用下面的 Flink SQL 语句将数据从 MySQL 写入 Iceberg 中：

INSERT INTO all_users_sink select * from user_source;

述命令将会启动一个流式作业，源源不断将 MySQL 数据库中的全量和增量数据同步到 Iceberg 中。

然后我们就可以使用如下的命令看到 Iceberg 中的写入的文件：

docker-compose exec sql-client tree /tmp/iceberg/warehouse/default_database/

/tmp/iceberg/warehouse/default_database/
&#x2514;&#x2500;&#x2500; all_users_sink
    &#x251C;&#x2500;&#x2500; data
    &#x2502;   &#x251C;&#x2500;&#x2500; 00000-0-84b83e87-0e98-48da-8871-4de54d802dc5-00009.parquet
    &#x2502;   &#x251C;&#x2500;&#x2500; 00000-0-84b83e87-0e98-48da-8871-4de54d802dc5-00011.parquet
    &#x2502;   &#x251C;&#x2500;&#x2500; 00000-0-84b83e87-0e98-48da-8871-4de54d802dc5-00511.parquet
    &#x2502;   &#x2514;&#x2500;&#x2500; 00000-0-84b83e87-0e98-48da-8871-4de54d802dc5-00512.parquet
    &#x2514;&#x2500;&#x2500; metadata
        &#x251C;&#x2500;&#x2500; 6785c966-67e3-43e0-876d-cfc2b77424b4-m0.avro
        &#x251C;&#x2500;&#x2500; c4f04e0f-5f1d-4cd3-a5eb-4f423390011d-m0.avro
        &#x251C;&#x2500;&#x2500; snap-1060385011870418792-1-df87d81d-004f-44d6-acca-1c77e5383647.avro
        &#x251C;&#x2500;&#x2500; snap-1125901484026564419-1-c8e6142a-4702-4bf9-bb6c-937261910d39.avro
        &#x251C;&#x2500;&#x2500; snap-1465929231731371144-1-cd480baf-a496-4f69-bb11-379299782e7a.avro
        &#x251C;&#x2500;&#x2500; snap-1535675730396165219-1-eddfe40e-27bd-4a7a-97b0-191da77d4019.avro
        &#x251C;&#x2500;&#x2500; snap-2621077481890393128-1-fdb33dc2-97a9-4472-bda4-fe0192a983c4.avro
        &#x251C;&#x2500;&#x2500; snap-2886091127939856900-1-94d854db-2081-43b4-9bb3-11f9d0377503.avro
        &#x251C;&#x2500;&#x2500; snap-3343920335928350948-1-19669bbb-7b82-4218-83ea-05c90429ff01.avro
        &#x251C;&#x2500;&#x2500; snap-3566691522613506207-1-59e74ad7-a32e-427f-83c1-640d98b58d24.avro
        &#x251C;&#x2500;&#x2500; snap-3843624394887137001-1-fef2b9b7-b7de-4ece-951b-eb1856a2d195.avro
        &#x251C;&#x2500;&#x2500; snap-4100501778549948477-1-6785c966-67e3-43e0-876d-cfc2b77424b4.avro
        &#x251C;&#x2500;&#x2500; snap-4248879694079296194-1-441e1ce8-6a10-4ebc-82b4-7abf62bc385b.avro
        &#x251C;&#x2500;&#x2500; snap-445137311357959788-1-4e97b44e-a626-402b-b6ca-613e5252ed15.avro
        &#x251C;&#x2500;&#x2500; snap-4453685821727449894-1-a5d3ced5-9d98-419a-aeda-a89e0184aa91.avro
        &#x251C;&#x2500;&#x2500; snap-4652826435458483424-1-144e1141-8da3-450d-ba4d-01858befea48.avro
        &#x251C;&#x2500;&#x2500; snap-4827514150229893384-1-db19f736-209b-44b0-9a4a-a1ecb8532817.avro
        &#x251C;&#x2500;&#x2500; snap-5160869656962357717-1-522bdf2b-fd9d-4c81-9995-6c598e3112a2.avro
        &#x251C;&#x2500;&#x2500; snap-5328679998683573777-1-befea0d5-0312-41db-ab33-04d2f71aa29c.avro
        &#x251C;&#x2500;&#x2500; snap-5468995844667874005-1-4c1db744-6eb6-4c62-a5ce-6162b64ed429.avro
        &#x251C;&#x2500;&#x2500; snap-7392671775005889691-1-f0e79868-ae06-4fe8-9a8e-e0b9f2fe2c12.avro
        &#x251C;&#x2500;&#x2500; snap-7448354638185933171-1-621e2364-508e-47bf-83d0-5c7d72d160c6.avro
        &#x251C;&#x2500;&#x2500; snap-7449633500954413534-1-3c673f73-381e-4917-af09-ce06e75995ee.avro
        &#x251C;&#x2500;&#x2500; snap-7808424372668354882-1-a874a13c-32cc-4b4b-ab45-3042cad872f8.avro
        &#x251C;&#x2500;&#x2500; snap-8487607088527724113-1-86dbb914-c564-4841-a536-be834a09b09d.avro
        &#x251C;&#x2500;&#x2500; snap-882048647352933559-1-c7d1058c-1d60-4624-b592-2d8c9f208946.avro
        &#x251C;&#x2500;&#x2500; snap-9092189266221057431-1-c4f04e0f-5f1d-4cd3-a5eb-4f423390011d.avro
        &#x251C;&#x2500;&#x2500; snap-9149158390097592825-1-fd9e8dd3-519c-4b48-b78c-181ea0fd2aaf.avro
        &#x251C;&#x2500;&#x2500; v1.metadata.json
        &#x251C;&#x2500;&#x2500; v10.metadata.json
        &#x251C;&#x2500;&#x2500; v11.metadata.json
        &#x251C;&#x2500;&#x2500; v12.metadata.json
        &#x251C;&#x2500;&#x2500; v13.metadata.json
        &#x251C;&#x2500;&#x2500; v14.metadata.json
        &#x251C;&#x2500;&#x2500; v15.metadata.json
        &#x251C;&#x2500;&#x2500; v16.metadata.json
        &#x251C;&#x2500;&#x2500; v17.metadata.json
        &#x251C;&#x2500;&#x2500; v18.metadata.json
        &#x251C;&#x2500;&#x2500; v19.metadata.json
        &#x251C;&#x2500;&#x2500; v2.metadata.json
        &#x251C;&#x2500;&#x2500; v20.metadata.json
        &#x251C;&#x2500;&#x2500; v21.metadata.json
        &#x251C;&#x2500;&#x2500; v22.metadata.json
        &#x251C;&#x2500;&#x2500; v23.metadata.json
        &#x251C;&#x2500;&#x2500; v24.metadata.json
        &#x251C;&#x2500;&#x2500; v25.metadata.json
        &#x251C;&#x2500;&#x2500; v26.metadata.json
        &#x251C;&#x2500;&#x2500; v27.metadata.json
        &#x251C;&#x2500;&#x2500; v3.metadata.json
        &#x251C;&#x2500;&#x2500; v4.metadata.json
        &#x251C;&#x2500;&#x2500; v5.metadata.json
        &#x251C;&#x2500;&#x2500; v6.metadata.json
        &#x251C;&#x2500;&#x2500; v7.metadata.json
        &#x251C;&#x2500;&#x2500; v8.metadata.json
        &#x251C;&#x2500;&#x2500; v9.metadata.json
        &#x2514;&#x2500;&#x2500; version-hint.text

使用下面的 Flink SQL 语句查询表 all_users_sink 中的数据：

修改 MySQL 中表的数据，Iceberg 中的表 all_users_sink 中的数据也将实时更新：

(3.1) 在 db_1.user_1 表中插入新的一行

UPDATE db_1.user_2 SET address='Beijing' WHERE id=120;

(3.3) 在 db_2.user_2 表中删除一行

Original: https://www.cnblogs.com/bigdata1024/p/16192321.html
Author: chaplinthink
Title: Flink CDC同步MySQL分库分表数据到Iceberg数据湖实践

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/565335/

转载文章受原作者版权保护。转载请注明原作者出处！

大数据

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

自然语言处理NLP星空智能对话机器人系列：NLP on Transformers 101 GavinNLP星空对话机器人Transformer课程片段1：Transformer架构内部的等级化结构及其

自然语言处理NLP星空智能对话机器人系列：NLP on Transformers 101 GavinNLP星空对话机器人Transformer课程片段1：Transformer架构…

大数据 2023年5月28日
0085
没有sudo权限的情况下，如何在Ubuntu安装sqlite

错误安装正确安装以下过程不可以在无权限情况进行，之所以撰写这一段是因为在一开始很多步骤都可以顺利执行，但是进行到最后一步make install命令中在我进行安装的Ubuntu…

大数据 2023年11月10日
0037
[Linux网络编程]sqlite3的介绍和使用+实例

在后置服务器需要对大量请求包数据进行甄别处理存储，所以常常需要对数据库操作。我们选择了sqlite3： SQLITE是一&#x6…

大数据 2023年11月11日
0067
Windows 10 将 Docker Desktop for Windows（WSL 2 方式）文件存储移出系统盘放置到其它目录

以WSL2方式使用Docker Desktop for Windows确实带来了更好的体验，但同时也带来新的问题。其中最典型的问题就是系统盘空间的占用越来越大。而且还有典型的内存问…

大数据 2023年5月28日
0078
Java日志框架

流行的日志框架 JUL Log4j JCL SLF4j Logback Log4j2 总结流行的日志框架 JUL，java.util.logging包下的，是Java原生日志框架…

大数据 2023年6月3日
00118
巧用符号链接迁移 HDFS 数据，业务完全无感知！

问题 JuiceFS 是一个基于对象存储的分布式文件系统，在之前跟对象存储比较的文章中已经介绍了 JuiceFS 能够保证数据的强一致性和极高的读写性能，因此完全可以用来替代 HD…

大数据 2023年5月26日
0067
搜图、裁剪一步到位，有人用YOLOv5和CLIP做了一个找图神器，在线可试用

给 Crop-CLIP 一个口令，就能自动搜图，还能帮忙裁剪出图片中的关键部分。经常找图的人都知道，根据检索关键词组寻找理想中的照片是件很麻烦的事情。打开搜索引擎或无版权图片网…

大数据 2023年5月28日
0061
RAID技术图解（mdadm）

一、概述二、RAID类型 1）硬件磁盘阵列（Hardware RAID） 2）软件磁盘阵列（Software RAID） 3）硬件辅助磁盘阵列（Hardware-Assisted…

大数据 2023年5月27日
0079
Hive环境搭建（保姆级教程）

目录一、Hive简介二、 Hive环境安装 * 1. 准备工作 – 1）安装Hadoop 2）安装MariaDB + （1）查看MariaDB安装情况（2）卸载M…

大数据 2023年11月12日
0049
AWTK 最新动态：shape 控件的使用方法

<shape value="path(w=200,h=200,data='m88.27,126.32l20.55,-20.62l-39.73,0l-39….

大数据 2023年5月26日
0058
sqlalchemy中动态创建数据表

参考来源：sqlalchemy中创建数据表在sqlalchemy中，想要动态创建数据表时，可以调用sqlalchemy的MetaData类以及create_all方法创建新的数据表…

大数据 2023年11月10日
0056
SQL54 平均工资

查找排除在职(to_date = ‘9999-01-01’ )员工的最大、最小salary之后，其他的在职员工的平均工资avg_salary。CREATE …

大数据 2023年11月10日
0036
redis保存登录用户信息

大数据 2023年11月15日
0030
数据集成技术概述-常见的CDC方案比对

导读数据集成的概念，与主要挑战。 CDC技术详解：概念、主流解决方案、以及两个技术流派。实时增量数据集成的主要开源技术：canal、maxwell、Debezium、Flink…

大数据 2023年11月13日
0037
SwiftUI SQLite数据库存储使用教程大合集(2022年版)

一、什么是SQLite SQLite 是一个 C 语言库，它实现了一个小型、快速、自包含、高可靠性、全功能的 SQL 数据库引擎。SQLite 是一个进程内库，它实现了一个自包含、…

大数据 2023年11月11日
0049
公司实战 ElasticSearch+Kafka+Redis+MySQL

大数据 2023年11月15日
0047

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

Flink CDC同步MySQL分库分表数据到Iceberg数据湖实践

环境准备

准备测试数据

大家都在看