Flink window

2023年7月10日下午11:58 • 技术杂谈 • 阅读 99

窗口计算

我们经常需要在一个时间窗口维度上对数据进行聚合，窗口是流处理应用中经常需要解决的问题。Flink的窗口算子为我们提供了方便易用的API，我们可以将数据流切分成一个个窗口，对窗口内的数据进行处理

按照有没有进行keyby分成了两种不同的处理方式:

首先，我们要决定是否对一个DataStream按照Key进行分组，这一步必须在窗口计算之前进行。
windowAll不对数据流进行分组，所有数据将发送到后续执行的算子单个实例上。
经过windowAll的算子是不分组的窗口（Non-Keyed Window），它们的原理和操作与Keyed Window类似，唯一的区别在于所有数据将发送给下游的单个实例，或者说下游算子的并行度为1。

// Keyed Window
stream
       .keyBy(...)               <- 按照一个key进行分组 .window(...) <- 将数据流中的元素分配到相应的窗口中 [.trigger(...)] 指定触发器trigger（可选） [.evictor(...)] 指定清除器evictor(可选) .reduce aggregate process() 窗口处理函数window function non-keyed window stream .windowall(...) 不分组，将数据流中的所有元素分配到相应的窗口中 < code></->

窗口生命周期

一个窗口在第一个属于它的元素到达时就会被创建，然后在时间（event 或 processing time）超过窗口的”结束时间戳 + 用户定义的 allowed lateness （详见 Allowed Lateness）”时被完全删除.

对于一个基于 event time 且范围互不重合（滚动）的窗口策略，如果窗口设置的时长为五分钟、可容忍的迟到时间（allowed lateness）为 1 分钟，那么第一个元素落入 12:00 至 12:05 这个区间时，Flink 就会为这个区间创建一个新的窗口。当 watermark 越过 12:06 时，这个窗口将被摧毁。

每个窗口会设置自己的 Trigger 和 function (ProcessWindowFunction、ReduceFunction、或 AggregateFunction，）。该 function 决定如何计算窗口中的内容，而 Trigger 决定何时窗口中的数据可以被 function 计算
也可以指定一个 Evictor ），在 trigger 触发之后，Evictor 可以在窗口函数的前后删除数据。

Window Assigners

Window assigner 定义了 stream 中的元素如何被分发到各个窗口
Flink 为最常用的情况提供了一些定义好的 window assigner，也就是 tumbling windows、 sliding windows、 session windows 和 global windows。
可以继承 WindowAssigner 类来实现自定义的 window assigner。所有内置的 window assigner（除了 global window）都是基于时间分发数据的，processing time 或 event time 均可
基于时间的窗口用 start timestamp（包含）和 end timestamp（不包含）描述窗口的大小。在代码中，Flink 处理基于时间的窗口使用的是 TimeWindow，它有查询开始和结束 timestamp 以及返回窗口所能储存的最大 timestamp 的方法 maxTimestamp()

滚动窗口（Tumbling Windows）

滚动窗口的大小是固定的，且各自范围之间不重叠

val input: DataStream[T] = ...

// &#x6EDA;&#x52A8; event-time &#x7A97;&#x53E3;
input
    .keyBy(<key selector>)
    .window(TumblingEventTimeWindows.of(Time.seconds(5)))
    .<windowed transformation>(<window function>)

// &#x6EDA;&#x52A8; processing-time &#x7A97;&#x53E3;
input
    .keyBy(<key selector>)
    .window(TumblingProcessingTimeWindows.of(Time.seconds(5)))
    .<windowed transformation>(<window function>)

// &#x957F;&#x5EA6;&#x4E3A;&#x4E00;&#x5929;&#x7684;&#x6EDA;&#x52A8; event-time &#x7A97;&#x53E3;&#xFF0C;&#x504F;&#x79FB;&#x91CF;&#x4E3A; -8 &#x5C0F;&#x65F6;&#x3002;
input
    .keyBy(<key selector>)
    .window(TumblingEventTimeWindows.of(Time.days(1), Time.hours(-8)))
    .<windowed transformation>(<window function>)
</window></windowed></key></window></windowed></key></window></windowed></key>

滑动窗口（Sliding Windows）

窗口大小是固定的，窗口有可能有重叠。窗口会有一个滑动步长


al input: DataStream[T] = ...

// &#x6ED1;&#x52A8; event-time &#x7A97;&#x53E3;
input
    .keyBy(<key selector>)
    .window(SlidingEventTimeWindows.of(Time.seconds(10), Time.seconds(5)))
    .<windowed transformation>(<window function>)

// &#x6ED1;&#x52A8; processing-time &#x7A97;&#x53E3;
input
    .keyBy(<key selector>)
    .window(SlidingProcessingTimeWindows.of(Time.seconds(10), Time.seconds(5)))
    .<windowed transformation>(<window function>)

// &#x6ED1;&#x52A8; processing-time &#x7A97;&#x53E3;&#xFF0C;&#x504F;&#x79FB;&#x91CF;&#x4E3A; -8 &#x5C0F;&#x65F6;
input
    .keyBy(<key selector>)
    .window(SlidingProcessingTimeWindows.of(Time.hours(12), Time.hours(1), Time.hours(-8)))
    .<windowed transformation>(<window function>)
</window></windowed></key></window></windowed></key></window></windowed></key>

会话窗口（Session Windows）

窗口大小不固定，窗口之间会有一个间隙（gap）.会话窗口根据Session gap切分不同的窗口，当一个窗口在大于Session gap的时间内没有接收到新数据时，窗口将关闭。在这种模式下，窗口的长度是可变的，每个窗口的开始和结束时间并不是确定的

val input: DataStream[T] = ...

// &#x8BBE;&#x7F6E;&#x4E86;&#x56FA;&#x5B9A;&#x95F4;&#x9694;&#x7684; event-time &#x4F1A;&#x8BDD;&#x7A97;&#x53E3;
input
    .keyBy(<key selector>)
    .window(EventTimeSessionWindows.withGap(Time.minutes(10)))
    .<windowed transformation>(<window function>)

// &#x8BBE;&#x7F6E;&#x4E86;&#x52A8;&#x6001;&#x95F4;&#x9694;&#x7684; event-time &#x4F1A;&#x8BDD;&#x7A97;&#x53E3;
input
    .keyBy(<key selector>)
    .window(EventTimeSessionWindows.withDynamicGap(new SessionWindowTimeGapExtractor[String] {
      override def extract(element: String): Long = {
        // &#x51B3;&#x5B9A;&#x5E76;&#x8FD4;&#x56DE;&#x4F1A;&#x8BDD;&#x95F4;&#x9694;
      }
    }))
    .<windowed transformation>(<window function>)

// &#x8BBE;&#x7F6E;&#x4E86;&#x56FA;&#x5B9A;&#x95F4;&#x9694;&#x7684; processing-time &#x4F1A;&#x8BDD;&#x7A97;&#x53E3;
input
    .keyBy(<key selector>)
    .window(ProcessingTimeSessionWindows.withGap(Time.minutes(10)))
    .<windowed transformation>(<window function>)

// &#x8BBE;&#x7F6E;&#x4E86;&#x52A8;&#x6001;&#x95F4;&#x9694;&#x7684; processing-time &#x4F1A;&#x8BDD;&#x7A97;&#x53E3;
input
    .keyBy(<key selector>)
    .window(DynamicProcessingTimeSessionWindows.withDynamicGap(new SessionWindowTimeGapExtractor[String] {
      override def extract(element: String): Long = {
        // &#x51B3;&#x5B9A;&#x5E76;&#x8FD4;&#x56DE;&#x4F1A;&#x8BDD;&#x95F4;&#x9694;
      }
    }))
    .<windowed transformation>(<window function>)

</window></windowed></key></window></windowed></key></window></windowed></key></window></windowed></key>

全局窗口（Global Windows）

整个数据流是一个窗口，因为数据流是无界的，所以全局窗口默认情况下，永远不会触发计算数据, 要定义trigger

val input: DataStream[T] = ...

input
    .keyBy(<key selector>)
    .window(GlobalWindows.create())
    .<windowed transformation>(<window function>)
</window></windowed></key>

窗口函数

窗口函数主要分为两种，一种是增量计算，如reduce和aggregate，一种是全量计算，如process。

增量计算指的是窗口保存一份中间数据，每流入一个新元素，新元素与中间数据两两合一，生成新的中间数据，再保存到窗口中

2.全量计算指的是窗口先缓存该窗口所有元素，等到触发条件后对窗口内的全量元素执行计算

ReduceFunction

ReduceFunction 指定两条输入数据如何合并起来产生一条输出数据，输入和输出数据的类型必须相同。 Flink 使用 ReduceFunction 对窗口中的数据进行增量聚合。

val input: DataStream[(String, Long)] = ...

input
    .keyBy(<key selector>)
    .window(<window assigner>)
    .reduce { (v1, v2) => (v1._1, v1._2 + v2._2) }
</window></key>

AggregateFunction

ReduceFunction 是 AggregateFunction 的特殊情况。 AggregateFunction 接收三个类型：输入数据的类型(IN)、累加器的类型（ACC）和输出数据的类型（OUT）。输入数据的类型是输入流的元素类型，AggregateFunction 接口有如下几个方法：把每一条元素加进累加器、创建初始累加器、合并两个累加器、从累加器中提取输出（OUT 类型

class AverageAggregate extends AggregateFunction[(String, Long), (Long, Long), Double] {
  override def createAccumulator() = (0L, 0L)

  override def add(value: (String, Long), accumulator: (Long, Long)) =
    (accumulator._1 + value._2, accumulator._2 + 1L)

  override def getResult(accumulator: (Long, Long)) = accumulator._1 / accumulator._2

  override def merge(a: (Long, Long), b: (Long, Long)) =
    (a._1 + b._1, a._2 + b._2)
}

val input: DataStream[(String, Long)] = ...

input
    .keyBy(<key selector>)
    .window(<window assigner>)
    .aggregate(new AverageAggregate)
</window></key>

ProcessWindowFunction

ProcessWindowFunction 有能获取包含窗口内所有元素的 Iterable，以及用来获取时间和状态信息的 Context 对象，比其他窗口函数更加灵活。 ProcessWindowFunction 的灵活性是以性能和资源消耗为代价的，因为窗口中的数据无法被增量聚合，而需要在窗口触发前缓存所有数据。

val input: DataStream[(String, Long)] = ...

input
  .keyBy(_._1)
  .window(TumblingEventTimeWindows.of(Time.minutes(5)))
  .process(new MyProcessWindowFunction())

/* ... */

class MyProcessWindowFunction extends ProcessWindowFunction[(String, Long), String, String, TimeWindow] {

  def process(key: String, context: Context, input: Iterable[(String, Long)], out: Collector[String]) = {
    var count = 0L
    for (in <- 1 input) { count="count" + } out.collect(s"window ${context.window} count: $count") < code></->

增量聚合的 ProcessWindowFunction

ProcessWindowFunction 可以与 ReduceFunction 或 AggregateFunction 搭配使用，它就可以增量聚合窗口的元素并且从 ProcessWindowFunction` 中获得窗口的元数据。


val input: DataStream[SensorReading] = ...

input
  .keyBy(<key selector>)
  .window(<window assigner>)
  .reduce(
    (r1: SensorReading, r2: SensorReading) => { if (r1.value > r2.value) r2 else r1 },
    ( key: String,
      context: ProcessWindowFunction[_, _, _, TimeWindow]#Context,
      minReadings: Iterable[SensorReading],
      out: Collector[(Long, SensorReading)] ) =>
      {
        val min = minReadings.iterator.next()
        out.collect((context.window.getStart, min))
      }
  )
</window></key>

Triggers

Trigger 决定了一个窗口（由 window assigner 定义）何时可以被 window function 处理

Trigger 接口提供了五个方法来响应不同的事件：

onElement() 方法在每个元素被加入窗口时调用。
onEventTime() 方法在注册的 event-time timer 触发时调用。
onProcessingTime() 方法在注册的 processing-time timer 触发时调用。
onMerge() 方法与有状态的 trigger 相关。该方法会在两个窗口合并时，将窗口对应 trigger 的状态进行合并，比如使用会话窗口时。
clear() 方法处理在对应窗口被移除时所需的逻辑。

Evictors

Flink 的窗口模型允许在 WindowAssigner 和 Trigger 之外指定可选的 Evictor。如本文开篇的代码中所示，通过 evictor(…) 方法传入 Evictor。 Evictor 可以在 trigger 触发后、调用窗口函数之前或之后从窗口中删除元素

Flink 内置有三个 evictor：

CountEvictor: 仅记录用户指定数量的元素，一旦窗口中的元素超过这个数量，多余的元素会从窗口缓存的开头移除
DeltaEvictor: 接收 DeltaFunction 和 threshold 参数，计算最后一个元素与窗口缓存中所有元素的差值，并移除差值大于或等于 threshold 的元素。
TimeEvictor: 接收 interval 参数，以毫秒表示。它会找到窗口中元素的最大 timestamp max_ts 并移除比 max_ts – interval 小的所有元素。

默认情况下，所有内置的 evictor 逻辑都在调用窗口函数前执行。

Allowed Lateness

默认情况下，watermark 一旦越过窗口结束的 timestamp，迟到的数据就会被直接丢弃。但是 Flink 允许指定窗口算子最大的 allowed lateness。 Allowed lateness 定义了一个元素可以在迟到多长时间的情况下不被丢弃，这个参数默认是 0。在 watermark 超过窗口末端、到达窗口末端加上 allowed lateness 之前的这段时间内到达的元素，依旧会被加入窗口。取决于窗口的 trigger，一个迟到但没有被丢弃的元素可能会再次触发窗口，比如 EventTimeTrigger

val input: DataStream[T] = ...

input
    .keyBy(<key selector>)
    .window(<window assigner>)
    .allowedLateness(<time>)
    .<windowed transformation>(<window function>)
</window></windowed></time></window></key>

关于状态大小的考量

Flink 会为一个元素在它所属的每一个窗口中都创建一个副本
，设置一个大小为一天、滑动距离为一秒的滑动窗口可能不是个好想法
educeFunction 和 AggregateFunction 可以极大地减少储存需求，因为他们会就地聚合到达的元素，且每个窗口仅储存一个值。而使用 ProcessWindowFunction 需要累积窗口中所有的元素
使用 Evictor 可以避免预聚合，因为窗口中的所有数据必须先经过 evictor 才能进行计算

Reference

https://nightlies.apache.org/flink/flink-docs-master/zh/docs/dev/datastream/operators/windows/

Original: https://www.cnblogs.com/bigdata1024/p/16324534.html
Author: chaplinthink
Title: Flink window

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/683955/

转载文章受原作者版权保护。转载请注明原作者出处！

技术杂谈

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

Electron 注册全局快捷键（globalShortcut）以及 clipboard剪切板事件（实现类似播放器点击机器码自动复制功能）

globalShortcart.js引入到主进程里 var { globalShortcut ,app} =require(‘electron’); app.on(‘ready’,…

技术杂谈 2023年5月31日
0087
软件供应链安全现状分析

一、背景数字化时代，软件无处不在。软件已经成为支撑社会正常运转的最基本元素之一，软件的安全性问题也正在成为当今社会的根本性、基础性问题。随着软件产业的快速发展，软件供应链也越发复…

技术杂谈 2023年5月31日
0091
[转帖]美光全球首发232层TLC闪存：性能翻倍、密度最高

404. 抱歉，您访问的资源不存在。可能是网址有误，或者对应的内容被删除，或者处于私有状态。代码改变世界，联系邮箱 contact@cnblogs.com 园子的商业化努力-困…

技术杂谈 2023年5月30日
0092
CityEngine中动态水的实现

地址：http://pan.baidu.com/share/link?shareid=3871210059&uk=3492170216密码：am5b 在今年Esri全球用户…

技术杂谈 2023年5月31日
0079
js前端-登录js脚本

html部分登录登录 js部分 js文件开头用分号”;”的原因：为了多个JS文件合并压缩的时候防止文件之间没有;分隔导致错误 ; let user_lo…

技术杂谈 2023年6月21日
00116
SASE

什么是 SASE？ SASE一般读作”sassy”。安全访问服务边缘简称 SASE，是一种基于云的 IT 模型，它将软件定义的网络与网络安全功能捆绑在一起…

技术杂谈 2023年5月31日
0094
树形dp（背包）

树形dp 样题：没有上司的舞会某大学有 (n) 个职员，编号为 (1\ldots n)。他们之间有从属关系，也就是说他们的关系就像一棵以校长为根的树，父结点就是子结点的直接上…

技术杂谈 2023年7月11日
0071
什么是金相显微镜景深？显微镜景深？

焦深（depth of focus）又称垂直鉴别率或景深,是指物镜对高低不平的物体能清晰分辨的能力，它与物镜的数值孔径成反比,物镜的数值孔径越大,其焦深越小。在物镜的数值孔径特别大…

技术杂谈 2023年5月31日
00109
spring-boot-导出excel-xlsx 文件损坏

maven的pom文件处理 ①将resource标签配置如下 src/main/resources true bootstrap.yml **/*.xml **/excelTemp…

技术杂谈 2023年7月25日
0079
Idea运行HelloWorld与Idea自用设置

Java运行机制编译型compile：操作系统等需要速度的会使用编译型去做（全局翻译再运行）解释型：网页，服务器脚本等对速度没有要求的使用解释型做（运行一句解释一句）程序运行…

技术杂谈 2023年6月21日
00119
基本用法

规则引擎的工作方式有点像if-else，它允许你设置一些条件和动作，然后在程序运行时判断某些动作该不该执行。easy-rules是一款轻量级的java规则引擎，目前它的长期支持版本…

技术杂谈 2023年7月11日
00123
面向对象与函数式编程

面向对象是对内聚状态的封装；函数式编程是对通用运算符的封装与在运算符基础上的计算构建。函数式编程 = 构造运算符 + 链接运算符。函数式编程根本上是抽象运算符与对运算符的解释…

技术杂谈 2023年5月31日
0084
Win8.1/win10安装photoshop软件提示please uninstall and reinstall the product如何解决

Photoshop CS6是一款编辑图片软件，在Win8系统中安装Photoshop CS6，提示：please uninstall and reinstall the produ…

技术杂谈 2023年5月31日
00124
域名ICP备案<阿里云>

阅读指引适用人：想要通过国内域名访问页面或者接口，需要进行ICP备案解决问题：备案过程中发生的问题阅读耗时：3分钟参考链接：阿里云ICP流程-视频、备案相关问题、注销备案相关问题…

技术杂谈 2023年6月21日
0096
Linux文件权限操作

Linux文件权限操作介绍我们在操作linux系统时，经常需要给系统中的文件夹赋予相关用户权限，如果权限过大，安全性较低，如果权限过小，对于用户的部分操作都会提示Operati…

技术杂谈 2023年6月21日
0085
Mstar 平台（648）唤醒之串口唤醒

串口唤醒功能主要是从supernova 待机进入PM后，串口接收PC端口发送过来的特定字串，然后将主板唤醒的功能。与IR，KEYPAD，WOL，CEC，MHL 等等基本流程一致，触…

技术杂谈 2023年5月31日
00123

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31