flink-cdc实时同步mysql数据到elasticsearch

2023年10月22日上午5:55 • Python • 阅读 52

本文首发于我的个人博客网站等待下一个秋-Flink

什么是CDC？

CDC是（Change Data Capture 变更数据获取）的简称。核心思想是，监测并捕获数据库的变动（包括数据或数据表的插入INSERT、更新UPDATE、删除DELETE等），将这些变更按发生的顺序完整记录下来，写入到消息中间件中以供其他服务进行订阅及消费。

1. 环境准备

mysql
elasticsearch
flink on yarn

说明：如果没有安装hadoop，那么可以不用yarn，直接用flink standalone环境吧。

2. 下载下列依赖包

下面两个地址下载flink的依赖包，放在lib目录下面。

这里flink-sql-connector-mysql-cdc，在这里只能下到最新版1.4：

可以自行https://github.com/ververica/flink-cdc-connectors下载新版mvn clean install -DskipTests 自己编译。

这是我编译的最新版2.2，传上去发现太新了，如果重新换个版本，我得去gitee下载源码，不然github速度太慢了，然后用IDEA编译打包，又得下载一堆依赖。我投降，我直接去网上下载了个1.4的直接用了。

我下载的jar包，放在flink的lib目录下面：

flink-sql-connector-elasticsearch7_2.11-1.13.5.jar
flink-sql-connector-mysql-cdc-1.4.0.jar

先在yarn上面启动一个application，进入flink13.5目录，执行：

bin/yarn-session.sh -d -s 1 -jm 1024 -tm 2048 -qu root.flink-queue-nm flink-cdc

进入flink sql命令行

bin/sql-client.sh embedded -s flink-cdc

4. 同步数据

这里有一张mysql表：

CREATE TABLE product_view (
id int(11) NOT NULL AUTO_INCREMENT,
user_id int(11) NOT NULL,
product_id int(11) NOT NULL,
server_id int(11) NOT NULL,
duration int(11) NOT NULL,
times varchar(11) NOT NULL,
time datetime NOT NULL,
PRIMARY KEY (id),
KEY time (time),
KEY user_product (user_id,product_id) USING BTREE,
KEY times (times) USING BTREE
) ENGINE=InnoDB DEFAULT CHARSET=utf8mb4;

-- 样本数据
INSERT INTO product_view VALUES ('1', '1', '1', '1', '120', '120', '2020-04-24 13:14:00');
INSERT INTO product_view VALUES ('2', '1', '1', '1', '120', '120', '2020-04-24 13:14:00');
INSERT INTO product_view VALUES ('3', '1', '1', '3', '120', '120', '2020-04-24 13:14:00');
INSERT INTO product_view VALUES ('4', '1', '1', '2', '120', '120', '2020-04-24 13:14:00');
INSERT INTO product_view VALUES ('5', '8', '1', '1', '120', '120', '2020-05-14 13:14:00');
INSERT INTO product_view VALUES ('6', '8', '1', '2', '120', '120', '2020-05-13 13:14:00');
INSERT INTO product_view VALUES ('7', '8', '1', '3', '120', '120', '2020-04-24 13:14:00');
INSERT INTO product_view VALUES ('8', '8', '1', '3', '120', '120', '2020-04-23 13:14:00');
INSERT INTO product_view VALUES ('9', '8', '1', '2', '120', '120', '2020-05-13 13:14:00');

创建数据表关联mysql

CREATE TABLE product_view_source (
id int,
user_id int,
product_id int,
server_id int,
duration int,
times string,
time timestamp,
PRIMARY KEY (id) NOT ENFORCED
) WITH (
'connector' = 'mysql-cdc',
'hostname' = '192.168.1.2',
'port' = '3306',
'username' = 'bigdata',
'password' = 'bigdata',
'database-name' = 'test',
'table-name' = 'product_view'
);

这样，我们在flink sql client操作这个表相当于操作mysql里面的对应表。

创建数据表关联elasticsearch

CREATE TABLE product_view_sink(
id int,
user_id int,
product_id int,
server_id int,
duration int,
times string,
time timestamp,
PRIMARY KEY (id) NOT ENFORCED
) WITH (
'connector' = 'elasticsearch-7',
'hosts' = 'http://192.168.1.2:9200',
'index' = 'product_view_index',
'username' = 'elastic',
'password' = 'elastic'
);

这样，es里面的product_view_index这个索引会被自动创建，如果想指定一些属性，可以提前手动创建好索引，我们操作表product_view_sink，往里面插入数据，可以发现es中已经有数据了。

同步数据

建立同步任务，可以使用sql如下：

insert into product_view_sink select * from product_view_source;

这个时候是可以退出flink sql-client的，然后进入flink web-ui，可以看到mysql表数据已经同步到elasticsearch中了，对mysql进行插入删除更新，elasticsearch都是同步更新的。

参考资料

https://ververica.github.io/flink-cdc-connectors/master/content/about.html

Original: https://www.cnblogs.com/data-magnifier/p/16690112.html
Author: 大数据技术派
Title: flink-cdc实时同步mysql数据到elasticsearch

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/802737/

转载文章受原作者版权保护。转载请注明原作者出处！

python

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

python+request+pytest+auller 搭建接口自动化测试框架

** 接口自动化测试框架一、项目目录项目整体框架分为6个模块公共方法（common）配置模块（conf）测试用例（data）日志（log）测试报告（report）测试套件（te…

Python 2023年9月10日
0077
机器学习——先验概率、后验概率、全概率公式、贝叶斯公式

一、先验概率 1、定义先验概率（prior probability）是指根据以往经验和分析得到的概率，如全概率公式，它往往作为”由因求果”问题中的&#82…

Python 2023年10月27日
0043
解决conda创建新环境慢 conda install 速度慢报错问题

解决conda创建新环境慢 conda install 速度慢报错问题方法一：更改anaconda仓库源地址方法二：从其他网站下载好安装包，然后使用conda本地安装方法 l…

Python 2023年9月9日
00103
【自写信息搜集工具】ThunderSearch开发原理解析

前段时间结合zoomeye的开发文档做了个简易的信息搜集工具ThunderSearch【项目地址 / 博客地址】，这次来讲讲具体的实现原理和开发思路首先要能看懂开发文档，http…

Python 2023年6月12日
0093
Java EE之线程编(进阶版)

这些锁策略能适用于很多中语言，博主是学Java的，所以下面的代码会用Java去写，请大家见谅，但是处理的方法是大差不差的。一、常见锁和锁策略： (一)、乐观锁和悲观锁 1、何为乐…

Python 2023年11月6日
0031
ccc-数据科学库（HM）-day6-完结

一、pandas学习（继续上次）项目一：911报警电话类型统计（添加新行分类）原始部分数据展示：代码： import numpy as np import pandas as …

Python 2023年8月7日
0049
如何用Matplotlib优雅地实现NTU-RGB D骨架可视化

目录 * – 1.简介 – 2.数据分析 – 3.实现过程 – 4.整体代码实现： – 5.说明 1.简介骨架数据集由…

Python 2023年9月3日
0066
【Django】Django视图views详解

视图 views 视图的工作流程 views的工作流程可以分为三个部分：用户发送请求（request）处理用户的请求（handler）将处理后的数据返回给用户（respons…

Python 2023年8月4日
0042
用Python画一只小兔子，祝您新年前途似锦，大展宏图

用Python画一只小兔子，祝您新年前途似锦，大展宏图兔年到了，祝大家新年前途似锦！大展宏图！ 2021牛年，我用Python画了一头金牛，参考：Python画金牛2022虎年，…

Python 2023年11月4日
0075
【多线程那些事儿】多线程的执行顺序如你预期吗？

一个简单的例子先来看一个多线程的例子： graph TB begin(a)–>线程1(x = 1, m = y) begin(x = 0, y = 0)&#82…

Python 2023年10月20日
0031
scrapy settings文件中的各参数解释

settings文件时存放配置文件的，初始化的setings文件中，只有四个变量时默认定义好的，其他都是注释掉的。① BOT_NAME爬虫项目的名字，访问网站时，user-agen…

Python 2023年10月4日
0030
【Learning 4 – Python数据分析与应用】NumPy 读写文件和简单统计分析

NumPy 读写文件 NumPy文件读写主要有二进制的文件读写和文件列表形式的数据读写两种形式。二进制的文件可能是无法用应用程序打开，需要另外导入工作空间中。文件列表形式的…

Python 2023年8月27日
00113
GCC Arm 12.2编译提示 LOAD segment with RWX permissions 警告

使用GCC Arm工具链开发的项目, 在升级到 arm-gnu-toolchain-12.2 之后, 编译出现警告 arm-gnu-toolchain-12.2.mpacbti-b…

Python 2023年10月20日
00130
【JavaWeb篇】快速上手Tomcat|实战项目详解

啊哦~你想找的内容离你而去了哦内容不存在，可能为如下原因导致： ① 内容还在审核中 ② 内容以前存在，但是由于不符合新的规定而被删除 ③ 内容地址错误 ④ 作者删除了内容。可…

Python 2023年11月7日
0040
python之OCR文字识别

将图片翻译成文字一般被称为光学文字识别（Optical Character Recognition，OCR）。可以实现OCR 的底层库并不多，目前很多库都是使用共同的几个底层OCR…

Python 2023年8月1日
0065
python isin函数_pandas中isin()函数及其逆函数使用

pandas中isin()函数及其逆函数使用发布时间：2018-05-27 21:11, 浏览次数：2021 , 标签： pandas isin 我使用这个函数就是用来清洗数据，…

Python 2023年8月7日
0036

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

flink-cdc实时同步mysql数据到elasticsearch

什么是CDC？

1. 环境准备

2. 下载下列依赖包

4. 同步数据

大家都在看