Flink Checkpoint & Savepoint

2023年6月3日下午4:27 • 大数据 • 阅读 81

Checkpoint是Flink实现容错机制最核心的功能，能够根据配置周期性地基于Stream中各个Operator的状态来生成Snapshot，从而将这些状态数据定期持久化存储下来，从而将这些状态数据定期持久化存储下来，当Flink程序一旦意外崩溃时，重新运行程序时可以有选择地从这些Snapshot进行恢复，从而修正因为故障带来的程序数据状态中断。

val env = StreamExecutionEnvironment.getExecutionEnvironment
    env.setStateBackend(new FsStateBackend("hdfs://ip:8020/flink/flink-checkpoints"))
    val config = env.getCheckpointConfig
    config.enableExternalizedCheckpoints(ExternalizedCheckpointCleanup.RETAIN_ON_CANCELLATION)
    config.setCheckpointingMode(CheckpointingMode.EXACTLY_ONCE)
    config.setCheckpointInterval(60000)

ExternalizedCheckpointCleanup.RETAIN_ON_CANCELLATION，表示一旦Flink处理程序被cancel后，会保留Checkpoint数据，以便根据实际需要恢复到指定的Checkpoint处理。

上面代码配置了执行Checkpointing的时间间隔为1分钟。

默认情况下，如果设置了Checkpoint选项，则Flink只保留最近成功生成的1个Checkpoint

Flink可以支持保留多个Checkpoint，需要在Flink的配置文件conf/flink-conf.yaml中，添加如下配置，指定最多需要保存Checkpoint的个数：

state.checkpoints.num-retained: 20

如果希望会退到某个Checkpoint点，只需要指定对应的某个Checkpoint路径即可实现。

如果Flink程序异常失败，或者最近一段时间内数据处理错误，我们可以将程序从某一个Checkpoint点，比如chk-860进行回放，执行如下命令

bin/flink run -s hdfs://namenode01.td.com/flink-1.5.3/flink-checkpoints/582e17d2cc343e6c56255d111bae0191/chk-860/_metadata flink-app-jobs.jar

所有的Checkpoint文件都在以Job ID为名称的目录里面
当Job停掉后，重新从某个Checkpoint点（chk-860）进行恢复时，重新生成Job ID
Checkpoint编号会从该次运行基于的编号继续连续生成：chk-861、chk-862、chk-863
Checkpoint 间隔不要太短
过短的间对于底层分布式文件系统而言，会带来很大的压力。
Flink 作业处理 record 与执行 checkpoint 存在互斥锁，过于频繁的checkpoint，可能会影响整体的性能。
合理设置超时时间

Savepoint会在Flink Job之外存储自包含（self-contained）结构的Checkpoint，它使用Flink的Checkpointing机制来创建一个非增量的Snapshot，里面包含Streaming程序的状态，并将Checkpoint的数据存储到外部存储系统中

Flink程序中包含两种状态数据:

用户定义的状态（User-defined State）是基于Flink的Transformation函数来创建或者修改得到的状态数据
系统状态（System State），是指作为Operator计算一部分的数据Buffer等状态数据，比如在使用Window Function时，在Window内部缓存Streaming数据记录

Flink提供了API来为程序中每个Operator设置ID，这样可以在后续更新/升级程序的时候，可以在Savepoint数据中基于Operator ID来与对应的状态信息进行匹配，从而实现恢复。

设置Operator ID:

DataStream<string> stream = env.

  // Stateful source (e.g. Kafka) with ID
  .addSource(new StatefulSource())
  .uid("source-id") // ID for the source operator
  .shuffle()
  // Stateful mapper with ID
  .map(new StatefulMapper())
  .uid("mapper-id") // ID for the mapper
  // Stateless printing sink
  .print(); // Auto-generated ID
</string>

创建一个Savepoint，需要指定对应Savepoint目录，有两种方式来指定

state.savepoints.dir: hdfs://namenode01.td.com/flink/flink-savepoints

bin/flink savepoint :jobId [:targetDirectory]

使用默认配置

bin/flink savepoint 40dcc6d2ba90f13930abce295de8d038

为正在运行的Flink Job指定一个目录存储Savepoint数据

bin/flink savepoint 40dcc6d2ba90f13930abce295de8d038 hdfs://namenode01.td.com/tmp/flink/savepoints

bin/flink run -s :savepointPath [:runArgs]

以上面保存的Savepoint为例，恢复Job运行

bin/flink run -s hdfs://namenode01.td.com/tmp/flink/savepoints/savepoint-40dcc6-a90008f0f82f flink-app-jobs.jar

会启动一个新的Flink Job，ID为cdbae3af1b7441839e7c03bab0d0eefd

1bbc5是Flink Job ID字符串前6个字符，后面bd967f90709b是随机生成的字符串
_metadata文件包含了Savepoint的元数据信息
其他文件内容都是序列化的状态信息

Original: https://www.cnblogs.com/bigdata1024/p/16284295.html
Author: chaplinthink
Title: Flink Checkpoint & Savepoint

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/565317/

转载文章受原作者版权保护。转载请注明原作者出处！

大数据

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

Hive SQL常用函数

大数据 2023年11月15日
0029
30款提升组织效能 SaaS 工具，我们的宝藏工具箱大公开

熟悉 Juicedata 的小伙伴知道，从2017年成立到第一款产品发布、从寻找PMF（Product Market Fit) 到开源，我们一直保持着一个精简的团队配置，不少人都很…

大数据 2023年6月3日
0077
关于Redis中Hash或Set类型元素字段设置过期时间的思考

大数据 2023年11月14日
0035
Centos7实现单服务器安装并开启多个Redis服务

大数据 2023年11月16日
0037
Flask框架——Flask-SQLite数据库

目录 SQLite数据库安装SQLite 创建SQLite数据库使用SQLite 上篇文章我们学习了Flask框架——Flask-Mail邮件，这篇文章我们学习Flask-SQ…

大数据 2023年11月11日
0035
Partition和ReduceTask的关系

先看源码：结论： 1.ReduceTask的数量由job提交时的参数决定：job.setNumReduceTasks()。设置为多少，就开启多少个ReduceTask，默认为1。…

大数据 2023年6月3日
0077
【SpringBoot实战】实现WEB的常用功能

前言通常在 Web 开发中，会涉及静态资源的访问支持、视图解析器的配置、转换器和格式化器的定制、文件上传下载等功能，甚至还需要考虑到与Web服务器关联的 Servlet相关组件的…

大数据 2023年6月3日
0088
数据平台调度升级改造 | 从Azkaban 平滑过度到 Apache DolphinScheduler 的操作实践

Fordeal的数据平台调度系统之前是基于Azkaban进行二次开发的，但是在用户层面、技术层面都存在一些痛点问题难以被解决。比如在用户层面缺少任务可视化编辑界面、补数等必要功能，…

大数据 2023年6月2日
0090
SQLite学习之路⑩ 互斥锁（2021SC@SDUSC）

SQLite 学习之路第十节互斥锁 2021SC@SDUSC 互斥锁部分由mutex.c、mutex_w32.c、mutex_unix.c和mutex_noop.c实现 mut…

大数据 2023年11月11日
0040
Docker：解决无法停止Container的问题

有时会遇到Docker Container stuck然后无法停掉的问题，这个时候可以通过kill方法强行停掉找出container所在的process id ps aux | …

大数据 2023年5月29日
0059
.与..的区别

. 表示当前目录… 表示当前目录的上一级目录。./表示当前目录下的某个文件或文件夹，视后面跟着的名字而定…/表示当前目录上一级目录的文件或文件夹，视后面跟着…

大数据 2023年5月24日
0097
机器学习（19）——循环神经网络（一）

文章目录 1 简介 2 序列表示方法 * 2.1 独热表示 2.2 分布式表示 2.3 Embedding 层 3 一个例子 * 3.1 考虑全连接 3.2 考虑权重共享 3.3 …

大数据 2023年5月28日
00110
jvm

posted @2021-01-26 13:27 哈哈呵h 阅读(311 ) 评论() 编辑 Original: https://www.cnblogs.com/yaowen/p/…

大数据 2023年5月28日
0078
Lua脚本在Redis事务中的应用实践

使用过Redis事务的应该清楚，Redis事务实现是通过打包多条命令，单独的隔离操作，事务中的所有命令都会按顺序地执行。事务在执行的过程中，不会被其他客户端发送来的命令请求所打断。…

大数据 2023年6月2日
0068
学生信息管理系统（QT+SQLITE实现）

学生信息管理系统（QT+SQLITE实现）嵌入式数据库SQLITE (1)编写C程序，包含了创建数据库、表、插入、查询、删除操作。要求如下: 创建sqlite型数据库db，建立含…

大数据 2023年11月11日
0048
为什么Kubernetes和容器与机器学习密不可分？

原文出自infosecurity 作者：Rebecca James 京东云开发者社区编译当前，数字化转型的热潮在IT领域发展的如火如荼，越来越多的企业投身其中，机器学习和人工智能…

大数据 2023年6月2日
00109

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

Flink Checkpoint & Savepoint

大家都在看