Flink SQl 语法(hint,with,select,分组窗口聚合，时间属性（处理，事件）)

2023年11月12日下午11:23 • 大数据 • 阅读 41

1、查询语句

1、hint

在对表进行查询的是偶动态修改表的属性

-- 创建表
CREATE TABLE word (
    lines STRING
)
WITH (
  'connector' = 'kafka',
  'topic' = 'word',
  'properties.bootstrap.servers' = 'master:9092,node1:9092,node2:9092',
  'properties.group.id' = 'testGroup',
  'scan.startup.mode' = 'earliest-offset',-- 读取所有的数据
  'format' = 'csv',
  'csv.field-delimiter'='\t'
)
-- 加载hive函数
LOAD MODULE hive WITH ('hive-version' = '1.2.1');
--统计单词的数量
--不动态指定开始读取的参数
select word,count(1) from
word,
lateral table(explode(split(lines,','))) as t(word)
group by word

-- OPTIONS 动态指定参数
select word,count(1) from
word /*+ OPTIONS('scan.startup.mode'='latest-offset') */ ,
lateral table(explode(split(lines,','))) as t(word)
group by word

Flink SQl 语法(hint,with,select,分组窗口聚合，时间属性（处理，事件）)

3、WITH

-- temp可以在后面的sql中使用多次
with temp as (
    select word from word,
    lateral table(explode(split(lines,','))) as t(word)
)
select * from  temp
 union all
select * from  temp

4、SELECT

SELECT order_id, price
FROM
(VALUES (1, 2.0), (2, 3.1))  AS t (order_id, price)

5、分组窗口聚合

老版本语法，新版本中不推荐使用

-- PROCTIME(): 获取处理时间的函数
CREATE TABLE words_window (
    lines STRING,
    proc_time as PROCTIME()
) WITH (
  'connector' = 'kafka',
  'topic' = 'words',
  'properties.bootstrap.servers' = 'master:9092,node1:9092,node2:9092',
  'properties.group.id' = 'testGroup',
  'scan.startup.mode' = 'earliest-offset',-- 读取所有的数据
  'format' = 'csv',
  'csv.field-delimiter'='\t'
)

-- TUMBLE：滚动窗口
-- HOP": 滑动黄口
-- SESSION： 会话窗口

--TUMBLE：处理时间的滑动窗口
select
word,
TUMBLE_START(proc_time, INTERVAL '5' SECOND)  as s, -- 窗口开始时间
TUMBLE_END(proc_time, INTERVAL '5' SECOND) as e, -- 窗口开始使时间
count(1) as c
from
words_window,
lateral table(explode(split(lines,','))) as t(word)
group by
word,
TUMBLE(proc_time, INTERVAL '5' SECOND) -- 每5秒计算一次

会话窗口

一段时间没有数据开始计算暂时只能在老板本api中使用

CREATE TABLE words_window (
    lines STRING,
    proc_time as PROCTIME()
) WITH (
  'connector' = 'kafka',
  'topic' = 'words',
  'properties.bootstrap.servers' = 'master:9092,node1:9092,node2:9092',
  'properties.group.id' = 'testGroup',
  'scan.startup.mode' = 'earliest-offset',-- 读取所有的数据
  'format' = 'csv',
  'csv.field-delimiter'='\t'
)
select
word,
SESSION_START(proc_time, INTERVAL '5' SECOND)  as s, -- 窗口开始时间
SESSION_END(proc_time, INTERVAL '5' SECOND) as e, -- 窗口结束使时间
count(1) as c
from
words_window,
lateral table(explode(split(lines,','))) as t(word)
group by
word,
SESSION(proc_time, INTERVAL '5' SECOND) -- 会话超过5秒中没有发送消息，就开始进行计算

6、TVFs(重点)

滚动窗口函数

CREATE TABLE words_window (
    lines STRING,
    proc_time as PROCTIME()
) WITH (
  'connector' = 'kafka',
  'topic' = 'words',
  'properties.bootstrap.servers' = 'master:9092,node1:9092,node2:9092',
  'properties.group.id' = 'testGroup',
  'scan.startup.mode' = 'earliest-offset',-- 读取所有的数据
  'format' = 'csv',
  'csv.field-delimiter'='\t'
)

-- TUMBLE(TABLE words_window, DESCRIPTOR(proc_time), INTERVAL '5' SECOND)
-- TUMBLE: 窗口函数，可以给原表增加床i偶开始时间，窗口的结束时间，窗口时间
-- TABLE words_window ： 指定原表
-- DESCRIPTOR(proc_time) 指定时间字段，可以处理时间，也可以是事件时间
-- INTERVAL '5' SECOND 指定窗口大小

 SELECT lines,proc_time,window_start,window_end,window_time FROM TABLE(
  TUMBLE(TABLE words_window, DESCRIPTOR(proc_time), INTERVAL '5' SECOND)
 );

 -- 在划分和窗口之后进行聚合计算
 SELECT word,window_start,count(1) as c FROM
 TABLE(
  TUMBLE(TABLE words_window, DESCRIPTOR(proc_time), INTERVAL '5' SECOND)
 ),
 lateral table(explode(split(lines,','))) as t(word)
 group by word,window_start

滑动窗口函数

一条数据会出现在多个窗口中，所以输入一条数据，会输出多条数据

CREATE TABLE words_window (
    lines STRING,
    proc_time as PROCTIME()
) WITH (
  'connector' = 'kafka',
  'topic' = 'words',
  'properties.bootstrap.servers' = 'master:9092,node1:9092,node2:9092',
  'properties.group.id' = 'testGroup',
  'scan.startup.mode' = 'earliest-offset',-- 读取所有的数据
  'format' = 'csv',
  'csv.field-delimiter'='\t'
)
-- HOP： 滑动窗口函数，需要指定窗口大小和滑动时间
-- 输入一条数据会输出多条数据
with temp as (
select * from words_window /*+ OPTIONS('scan.startup.mode'='latest-offset') */
)
SELECT * FROM
TABLE(
    HOP(TABLE temp , DESCRIPTOR(proc_time), INTERVAL '5' SECOND, INTERVAL '15' SECOND)
)
;

-- 窗口止呕进行聚合
with temp as (
select * from words_window /*+ OPTIONS('scan.startup.mode'='latest-offset') */
)
SELECT word ,window_start,count(1) as c FROM
TABLE(
    HOP(TABLE temp, DESCRIPTOR(proc_time), INTERVAL '5' SECOND, INTERVAL '15' SECOND)),
lateral table(explode(split(lines,','))) as t(word)
group by word,window_start
;

7、时间属性

1、处理时间

使用PROCTIME()函数给表增加一个时间字段

CREATE TABLE student_kafka_proc_time (
    id STRING,
    name STRING,
    age INT,
    gender STRING,
    clazz STRING,
    proc as PROCTIME() -- 处理时间字段
) WITH (
  'connector' = 'kafka',
  'topic' = 'student',
  'properties.bootstrap.servers' = 'master:9092,node1:9092,node2:9092',
  'properties.group.id' = 'testGroup',
  'scan.startup.mode' = 'earliest-offset',
  'format' = 'csv',
  'csv.field-delimiter'=',', -- csv格式数据的分隔符
  'csv.ignore-parse-errors'='true', -- 如果出现脏数据据,补null
  'csv.allow-comments'='true'--跳过#注释行
)

-- 使用处理时间可以做窗口统计
 SELECT clazz,window_start,count(1) as c FROM
 TABLE(
  TUMBLE(TABLE student_kafka_proc_time, DESCRIPTOR(proc), INTERVAL '5' SECOND)
 )
 group by clazz,window_start

2、事件时间

测试数据

1500100001,施笑槐,22,女,文科六班,2022-07-20 16:44:10
1500100001,施笑槐,22,女,文科六班,2022-07-20 16:44:11
1500100001,施笑槐,22,女,文科六班,2022-07-20 16:44:12
1500100001,施笑槐,22,女,文科六班,2022-07-20 16:44:20
1500100001,施笑槐,22,女,文科六班,2022-07-20 16:44:15
1500100001,施笑槐,22,女,文科六班,2022-07-20 16:44:25

创建表指定时间字段和水位线

-- TIMESTAMP(3) flink的时间戳类型
-- ts - INTERVAL '5' SECOND 水位线前移5秒
CREATE TABLE student_kafka_event_time (
    id STRING,
    name STRING,
    age INT,
    gender STRING,
    clazz STRING,
    ts TIMESTAMP(3),
    WATERMARK FOR ts AS ts - INTERVAL '5' SECOND -- 指定时间字段和水位线
) WITH (
  'connector' = 'kafka',
  'topic' = 'student_event_time',
  'properties.bootstrap.servers' = 'master:9092,node1:9092,node2:9092',
  'properties.group.id' = 'testGroup',
  'scan.startup.mode' = 'earliest-offset',
  'format' = 'csv'
)

-- 使用事件时间  做窗口函数统计
-- 每一条数据都会计算出一个结果，会取更新之前已经输出的结果
-- 不存在数据丢失问题
-- 需要将统计结果保存在状态中
 SELECT clazz,window_start,count(1) as c FROM
 TABLE(
  TUMBLE(TABLE student_kafka_event_time, DESCRIPTOR(ts), INTERVAL '5' SECOND)
 )
 group by clazz,window_start

-- 分钟窗口统计
-- 如果数据乱序可能会丢失数据
-- 不需要将统计的结果保存在状态中
select
clazz,
TUMBLE_START(ts, INTERVAL '5' SECOND)  as s, -- 窗口开始时间
TUMBLE_END(ts, INTERVAL '5' SECOND) as e, -- 窗口开始使时间
count(1) as c
from
student_kafka_event_time
group by
clazz,
TUMBLE(ts, INTERVAL '5' SECOND) -- 没4秒计算一次

 -- 生产数据
 kafka-console-producer.sh --broker-list master:9092,node1:9092,node2:9092 --topic student_event_time

练习

统计单词的数量，
每隔5秒统计一次
每个窗口中取单词数量最多个两个单词

CREATE TABLE words_window_demo (
    lines STRING,
    proc_time as PROCTIME()
) WITH (
  'connector' = 'kafka',
  'topic' = 'words',
  'properties.bootstrap.servers' = 'master:9092,node1:9092,node2:9092',
  'properties.group.id' = 'testGroup',
  'scan.startup.mode' = 'earliest-offset',-- 读取所有的数据
  'format' = 'csv',
  'csv.field-delimiter'='\t'
)
-- 在夫林卡 sql 流处理中row_number()必须要取topN
select * from (
    select
    word,
    window_start,
    c,
    row_number() over(partition by window_start order by c desc) as r
    from (
        select  word,window_start,count(1) as c from
        TABLE(
            TUMBLE(TABLE words_window_demo, DESCRIPTOR(proc_time), INTERVAL '5' SECOND)
        ),
        lateral table(explode(split(lines,','))) as t(word)
        group by word,window_start
    ) as a
) as b
where r

统计每个城市中每个区县的车流量
每隔5分钟统计一次，统计最近15分钟的数据
每个城市中取车流量最大的前2个区县
将统计好的结果保存到数据库中

-- 数据
{
    "car": "皖AK0H90",
    "city_code": "340100",
    "county_code": "340111",
    "card": 117303031813010,
    "camera_id": "00004",
    "orientation": "北",
    "road_id": 34130440,
    "time": 1614799929,
    "speed": 84.51
}

-- TIMESTAMP(3) flink的时间戳类型
-- ts - INTERVAL '5' SECOND 水位线前移5秒
-- 创建表读取kafka中的json数据
CREATE TABLE cars_kafka_event_time (
    car STRING,
    city_code STRING,
    county_code STRING,
    card BIGINT,
    camera_id STRING,
    orientation STRING,
    road_id BIGINT,
    time BIGINT,
    speed DOUBLE,
    ts_ltz AS TO_TIMESTAMP_LTZ(time, 3),
    WATERMARK FOR ts_ltz AS ts_ltz - INTERVAL '5' SECOND -- 指定时间字段和水位线
) WITH (
  'connector' = 'kafka',
  'topic' = 'car_test',
  'properties.bootstrap.servers' = 'master:9092,node1:9092,node2:9092',
  'properties.group.id' = 'carGroup',
  'scan.startup.mode' = 'earliest-offset',
  'format' = 'json'
)
-- 测试一下是否存在数据
select * from  cars_kafka_event_time

--  统计每个城市中每个区县的车流量,每隔5分钟统计一次，统计最近15分钟的数据,每个城市中取车流量最大的前2个区县
select *
from (
select
    county_code
    ,city_code
    ,window_start
    , c
    ,row_number() over(partition by window_start order by c desc) as r
    from
(
with temp as (
select * from cars_kafka_event_time  /*+ OPTIONS('scan.startup.mode'='latest-offset') */
)
SELECT
    county_code
    ,city_code
    ,window_start
    ,count(1) as c
    FROM
TABLE(
    HOP(TABLE temp, DESCRIPTOR(ts_ltz), INTERVAL '5' SECOND, INTERVAL '15' SECOND))
group by county_code,city_code,window_start
) as b ) as h
where r

Original: https://blog.csdn.net/weixin_48370579/article/details/126091927
Author: a-tao必须奥利给
Title: Flink SQl 语法(hint,with,select,分组窗口聚合，时间属性（处理，事件）)

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/817859/

转载文章受原作者版权保护。转载请注明原作者出处！

大数据

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

mysql进阶：canal实现mysql数据同步到redis｜实现自定义canal客户端

大数据 2023年11月15日
0038
【SpringBoot实战】核心配置和注解

前言 SpringBoot核心配置在springboot中有非常重要的作用，我们可是使用核心配置文件进行一些基础功能的定义，属性值的注入等。springboot支持两种格式的核心配…

大数据 2023年6月3日
00101
git 删除未提交的文件

git 删除未提交的文件原创那时一个人2022-08-02 06:30:54©著作权文章标签 git javascript 文章分类 Hadoop 大数据 ©著作权归作者所有…

大数据 2023年5月24日
0093
C++箴言：理解typename的两个含义

template 答案：没什么不同。在声明一个 template type parameter（模板类型参数）的时候，class 和 typename 意味着完全相同的东西。一些程…

大数据 2023年6月3日
0078
Airflow 安装

文章目录 1、官网 * 1.1、文档 2、安装 * 2.1、本地安装（Running Airflow locally） – 2.1.1、说明 2.1.2、安装环境 2….

大数据 2023年11月11日
0066
原来Python自带了数据库，用起来真方便

Python作为数据科学主流语言，被广泛用于数据读存、处理、分析、建模，可以说是无所不能。数据一般存放在本地文件或者数据库里，之前介绍过如何使用python读取本地文件，也对# …

大数据 2023年11月12日
0039
DWR 路径问题

1、DWR官网下载地址：下载一个dwr.jar ，放到web工程的classpath下，配置好web.xml和dwr.xml 以后，以及在页面上使用dwr的功能。(如何配置请看下…

大数据 2023年5月26日
0058
Linux基础命令(二)

Linux基础命令(二) 压缩格式：gz、bz2、xz、zip、Z 压缩，压缩后文件以.gz结尾,压缩后会删除原文件 [root@zzd ~]# gzip 1.txt //将1.t…

大数据 2023年5月27日
0054
ASP.NET Core定时之Quartz.NET使用

一、什么是Quartz.NET？ Quartz.NET 是一个功能齐全的开源作业调度系统，可用于从最小的应用程序到大型企业系统。 Quartz.NET是纯净的，它是一个.Net程序…

大数据 2023年6月3日
0081
大整数算法

[TencentCloudSDKException] code:FailedOperation.ServiceIsolate message:service is stopped …

大数据 2023年6月3日
0084
【Big Data】解决Hive查询出现Java.lang.OutMemoryError.java heap space

一、Introduction 在使用Hive时，出现了以下的问题错误的原因是资源分配不够，但是错误的原因有很多，需要去查看日志文件观察具体的错误。日志文件位置在 /tmp/ro…

大数据 2023年11月12日
0053
SparkStreaming 简介

SparkStreaming 是流式处理框架，是 Spark API 的扩展，支持可扩展、高吞吐量、容错的实时数据流处理，实时数据的来源可以是：Kafka, Flume, Twi…

大数据 2023年5月25日
0086
JuiceFS 在 Elasticsearch/ClickHouse 温冷数据存储中的实践

企业数据越存越多，存储容量与查询性能、以及存储成本之间的矛盾对于技术团队来说是个普遍难题。这个难题在 Elasticsearch 与 ClickHouse 这两个场景中尤为突出，为…

大数据 2023年6月3日
0075
vivo 基于 JaCoCo 的测试覆盖率设计与实践

作者：vivo 互联网服务器团队- Xu Shen 本文主要介绍vivo内部研发平台使用JaCoCo实现测试覆盖率的实践，包括JaCoCo原理介绍以及在实践过程中遇到的新增代码覆盖…

大数据 2023年6月2日
00119
sqlite database

#include "wavesd.h" #include "ui_wavesd.h" undefined #include #include…

大数据 2023年11月10日
0040
关于 kafka 消息的顺序问题一二

顺序就像就是 12345，任何 12354、12543、51234等都不行。因为是 mq，所以必然涉及三个主体：发送方、消息服务器、消费方。一、kafka 消息服务器 kafk…

大数据 2023年5月28日
0085

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

Flink SQl 语法(hint,with,select,分组窗口聚合，时间属性（处理，事件）)

1、查询语句

1、hint

3、WITH

4、SELECT

5、分组窗口聚合

6、TVFs(重点)

7、时间属性

1、处理时间

2、事件时间

练习

大家都在看