Spark Structured Streaming实战–对同一流数据进行多种计算

2023年8月20日上午2:18 • Python • 阅读 51

对同一流数据进行多种计算

有时我们可能需要针对同一个流的数据源来进行多种计算，比如：使用同一流数据来计算多个指标，并把计算结果保存到不同的地方。此时，就需要对同一个来源的流使用不同的计算逻辑，并把结果写出到不同的存储系统中。

Spark Strucutured Streaming提供了针对同一个数据源流进行不同逻辑计算并对结果进行不同的sink的方式。

这就是在Spark Strucutured Streaming的writestream中提供的foreach和foreachBatch接口。

Foreach和ForeachBatch

foreach 允许对微批的每一行数据自定义写出逻辑。
foreachBatch 不仅可以自定义写出逻辑，还可以自定义任意的处理逻辑。

可以看出，这两者有所差别：foreach可以自定义写出的逻辑；而foreachBatch除了具有foreach的特点外，可以自定义处理逻辑，所以相对比较灵活。

ForeachBatch的编程模式

对于foreachBatch的编程模式可以通过通过图1来表示：

Spark Structured Streaming实战--对同一流数据进行多种计算

先读取流数据，此时得到的是一个流式的dataframe。它和spark sql的dataframe差不多，但常规dataframe的有些操作它不支持，在源码实现时，只是在常规的dataset结构中添加了一个流式数据集的标识符加以区分。

; foreachBatch的编码模板

streamingDF.writeStream.foreachBatch { (batchDF: DataFrame, batchId: Long) =>
  // Transform and write batchDF
}.start()

例如：

streamingDF.writeStream.foreachBatch { (batchDF: DataFrame, batchId: Long) =>
  batchDF.persist()

  batchDF.xxx1.write.format(...).save(...)
  batchDF.xxx2.write.format(...).save(...)

  batchDF.unpersist()
}

从以上示例代码可以看出，对来自同一数据源的每个微批的数据，可以进行不同的处理逻辑，并把处理结果保存到不同的存储位置。

foreach的编码模式

def process_row(row):

    pass

query = streamingDF.writeStream.foreach(process_row).start()

实战

以下例子是python的代码，针对同一个流数据，分别进行了两种处理逻辑，并得到了两个结果，然后把这两个结果分别写出到了不同的位置。

这里只是计算了两个指标，当然也可以继续添加逻辑计算。


from __future__ import print_function

import sys

from pyspark.sql import SparkSession
from pyspark.sql.functions import explode
from pyspark.sql.functions import split

def func1(df):
    wc = df.groupBy('word').count()
    wc.write.mode("append").format("json").save("/tmp/sparktest/json/")

def func2(df):

    wc2 = df.groupBy('word').count()
    wc2.write.mode("append").format("csv").save("/tmp/sparktest/csv/")

func_list = [func1, func2]

def foreach_batch_function(df, epoch_id):
    df.persist()

    for f in func_list:
        f(df)
    df.unpersist()

if __name__ == "__main__":
    if len(sys.argv) != 3:
        print("Usage: structured_network_wordcount.py  ",
                                                                        file=sys.stderr)
        sys.exit(-1)

    host = sys.argv[1]
    port = int(sys.argv[2])

    spark = SparkSession\
        .builder\
        .appName("StructuredNetworkWordCount")\
        .getOrCreate()

    spark.sparkContext.setLogLevel("WARN")

    lines = spark\
        .readStream\
        .format('socket')\
        .option('host', host)\
        .option('port', port)\
        .load()

    words = lines.select(

        explode(
            split(lines.value, ' ')
        ).alias('word')
    )

    query = words.writeStream\
                 .foreachBatch(foreach_batch_function).start()

    query.awaitTermination()

提交任务

开启一个终端，并在终端中输入以下命令：

$ nc -lk 10002
hello world
hello world 1
hello world 2
just do it !

这里使用本地模式提交。因为使用了接收socket的流数据，但socket是实验产品，官方不建议在生产环境下使用。

./bin/spark-submit --master local dostream/word_count_v2.py localhost 10002

注意事项

（1）默认情况下，foreachBatch只提供至少一次写(at-least-once write)保证。但是，您可以使用提供给函数的batchId来对输出进行重复数据删除，并获得只执行一次的保证。

（2）foreachBatch不能与连续模式（continuous）一起工作，因为它基本上依赖于流查询的微批处理执行。如果以连续模式写入数据，则使用foreach。

Original: https://blog.csdn.net/zg_hover/article/details/113274986
Author: 一铭
Title: Spark Structured Streaming实战–对同一流数据进行多种计算

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/754426/

转载文章受原作者版权保护。转载请注明原作者出处！

python

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

【Python】快速创建一个简易 HTTP 服务器（http.server）

; 引言 http.server 是 socketserver.TCPServer 的子类，它在 HTTP 套接字上创建和监听，并将请求分派给处理程序。本文是关于如何使用 Pyth…

Python 2023年8月2日
0032
〖Python接口自动化测试实战篇⑥〗- 接口抓包工具 Chrome 的使用

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。 Original: https://blo…

Python 2023年8月2日
0037
自动依据你的数据库生成SQL练习题及答案，宝藏软件鉴赏

啊哦~你想找的内容离你而去了哦内容不存在，可能为如下原因导致： ① 内容还在审核中 ② 内容以前存在，但是由于不符合新的规定而被删除 ③ 内容地址错误 ④ 作者删除了内容。可…

Python 2023年11月4日
0044
SPL工业智能：原料与产品的拟合

问题提出工业生产活动的目标是利用原料生产产品，从而产生利润。原料经过一系列加工过程，包括物理反应和化学反应，最终形成产品，生产的理想状态是原料到产品的转换率是确定的，工厂想生产多…

Python 2023年11月7日
0039
python及pygame雷霆战机游戏项目实战07 得分与绘制文本

项目详细介绍项目详细介绍在这个系列中，将制作一个雷霆战机游戏。 ; 保持分数跟踪玩家的得分非常简单：只需要一个变量，将其初始化为0，并在每次子弹摧毁敌机时添加。由于有不同大小…

Python 2023年9月20日
0052
目标检测算法——YOLOv5/YOLOv7改进之结合PP-LCNet（轻量级CPU网络）

>>>深度学习Tricks，第一时间送达<<< 目录 PP-LCNet——轻量级且超强悍的CPU级骨干网络！！（一）前沿介绍 1.PP-LC…

Python 2023年10月7日
0037
Unity3D敌人AI自动追击功能

我这次制作的是狼这个敌人：unity中有免费的资源，我选择的资源如下图所示，望读者下载方便动手以便更好地学习和理解： Wolf Animated | 3D Animals | Un…

Python 2023年9月30日
0037
30岁转行网络安全来得及吗？有发展空间吗？

30岁转行网络安全来得及吗?有发展空间吗? 现阶段，很多30岁左右的人群都面临就业难的问题，尤其是对于年龄已过30.没有一技之长的人。现阶段，网络安全行业已成了风口行业，也有很多3…

Python 2023年10月7日
00109
第十三章外星人来了

外星人来了 13.1 项目回顾 13.2 创建第一个外星人 * 13.2.1 创建 Alien 类 13.2.2 创建Alien实例 13.3 创建一群外星人 * 13.3.1 确…

Python 2023年9月20日
0041
数据分析三剑客

数据分析三剑客 * – numpy – pandas – matplotlib 该篇文章主要对这三大模块做个简单介绍。 numpy numpy …

Python 2023年8月26日
0059
conda虚拟环境中安装cuda和cudnn，再也不用头疼版本号的问题了

文章目录背景（为什么）具体步骤 * 查看conda支持的cuda版本下载cuda 安装cuda 查看cuda对应的cudnn版本下载cudnn版本安装cudnn 测试安装…

Python 2023年8月2日
0058
FastAPI 学习之路（六十一）使用mysql数据库替换sqlite数据库

我们首先需要安装对应连接的依赖项 [En] We first need to install the dependency of the corresponding connect…

Python 2023年5月25日
0061
用Python关联规则挖掘情侣、基友、渣男和狗

Original: https://www.cnblogs.com/123456feng/p/16067299.htmlAuthor: 蚂蚁ailingTitle: 用Python…

Python 2023年5月24日
0059
抖音滑块验证s_v_web_id

啊哦~你想找的内容离你而去了哦内容不存在，可能为如下原因导致： ① 内容还在审核中 ② 内容以前存在，但是由于不符合新的规定而被删除 ③ 内容地址错误 ④ 作者删除了内容。可…

Python 2023年8月10日
00117
嵌入式开发–CubeMX使用入门教程

嵌入式开发–CubeMX使用入门教程 CubeMX简介传统的单片机开发时，需要针对片上外设做各种初始化的工作，相当麻烦。CubeMX是ST公司出品的一款图形化代码生成工具，通过图…

Python 2023年11月8日
0067
小样本利器2.文本对抗+半监督 FGSM & VAT & FGM代码实现

小样本利器2.文本对抗+半监督 FGSM & VAT & FGM代码实现上一章我们聊了聊通过一致性正则的半监督方案，使用大量的未标注样本来提升小样本模型的泛化能力…

Python 2023年10月29日
0061

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31