1_Spark Streaming 概述

1. Spark Streaming 是什么 ?

Spark Streaming 是 Spark Core 的扩展API
        用来支持 高吞吐、高容错的 处理 流式数据
        数据源可以是 : Kafka、TCP sockets、Flume、Twitter等流式数据源
        处理数据: 可以用 Spark Core的算子 map、reduce、join、window 来处理数据
        数据输出: 可以将处理后的数据 输出到 文件系统(HDFS)、数据库、live dashboards(实时仪表盘)

    Spark Streaming是Spark的上一代 流式引擎
        Spark Streaming 不在更新,它是一个传统项目
    Spark 现在又提供了一个 更新、更容易使用的流式引擎,Spark Structured Streaming

2. Spark Streaming 工作流程 ?

1_Spark Streaming 概述
Spark Streaming接收实时的输入数据流
    将数据进行批量处理,再由Spark引擎进行处理,最终批量生成结果流 (本质还是将数据 封装成RDD 进行处理)

1_Spark Streaming 概述

1_Spark Streaming 概述
Receiver 接收数据流 -> 生成 DStream(一系列RDD) -> SparkConext 处理 RDD -> 输出处理结果

Original: https://www.cnblogs.com/bajiaotai/p/16563203.html
Author: 学而不思则罔!
Title: 1_Spark Streaming 概述

原创文章受到原创版权保护。转载请注明出处:https://www.johngo689.com/565526/

转载文章受原作者版权保护。转载请注明原作者出处!

(0)

大家都在看

亲爱的 Coder【最近整理,可免费获取】👉 最新必读书单  | 👏 面试题下载  | 🌎 免费的AI知识星球