Dependency 源码

2023年7月10日下午10:17 • 技术杂谈 • 阅读 68

1. 思考 : 依赖的本质是什么呢？作用是什么？

1. 在我们初始化RDD的时候, 需要指定 RDD的依赖关系
            abstract class RDD[T: ClassTag](
            @transient private var _sc: SparkContext,
            @transient private var deps: Seq[Dependency[_]]  => 指定依赖关系
            ) extends Serializable with Logging

       RDD的依赖 是一个Dependency的实现类, 用来表示 子RDD 和 父RDD 间的关系(分区与分区间对应关系)

2.class hierarchy

Dependency (org.apache.spark)                   // base class, 定义了rdd方法,表示 依赖的父RDD
    ShuffleDependency (org.apache.spark)        // 父RDD类型为 RDD[k,v]型, 涉及到了 根据key shuffleWrite和 和 shuffleRead
    NarrowDependency (org.apache.spark)         // 父RDD分区个数 必定 大于等于 子RDD个数, 涉及到了 分区的合并 或 1对1, 允许流水线执行
        PruneDependency (org.apache.spark.rdd)
        OneToOneDependency (org.apache.spark)   // 父RDD 分区个数 = 子RDD个数 分区个数  (1 对 1)
        RangeDependency (org.apache.spark)      // 父RDD 分区个数 >= 子RDD个数 分区个数 (多 对 1) 分区合并

3.构造器

class ShuffleDependency[K: ClassTag, V: ClassTag, C: ClassTag](
    @transient private val _rdd: RDD[_ // 依赖的 父RDD (必须为 key-value型RDD)
    val partitioner: Partitioner,                                     // 指定 分区器(shuffle write 时,根据key分区)
    val serializer: Serializer = SparkEnv.get.serializer,             // 指定 序列化方式
    val keyOrdering: Option[Ordering[K]] = None,                      // 指定 key 排序方式
    val aggregator: Option[Aggregator[K, V, C]] = None,               // 指定 合并规则
    val mapSideCombine: Boolean = false,                              // 指定 是否开启 map端合并,默认不开启
    val shuffleWriterProcessor: ShuffleWriteProcessor = new ShuffleWriteProcessor)   // 指定 ShuffleMapTask 中 shuffle write的处理器
  extends Dependency[Product2[K, V]] {

}

class OneToOneDependency[T](rdd: RDD[T]) extends NarrowDependency[T](rdd) {
  override def getParents(partitionId: Int): List[Int] = List(partitionId)
}

class RangeDependency[T]( rdd: RDD[T]       // 父RDD
                        , inStart: Int      // 范围开始
                        , outStart: Int     // 范围结束
                        , length: Int)      // 指定范围长度(分区数)
  extends NarrowDependency[T](rdd) {

  override def getParents(partitionId: Int): List[Int] = {
    if (partitionId >= outStart && partitionId < outStart + length) {
      List(partitionId - outStart + inStart)
    } else {
      Nil
    }
  }
}

4.通过 RDD实现类查看依赖关系

案例1 HadoopRDD

//1.案例1 HadoopRDD
class HadoopRDD[K, V](
    sc: SparkContext,
    broadcastedConf: Broadcast[SerializableConfiguration],
    initLocalJobConfFuncOpt: Option[JobConf => Unit],
    inputFormatClass: Class[_ <: InputFormat[K, V]],
    keyClass: Class[K],
    valueClass: Class[V],
    minPartitions: Int)
  extends RDD[(K, V)](sc, Nil)

说明 :
    1.实现类 HadoopRDD并没有重写 getDependencies方法,说明他使用父类Rdd的 getDependencies方法
    2.HadoopRDD 继承的是 下面这种否则方式,并且指定的依赖关系为 Nil
        //主构造器
        abstract class RDD[T: ClassTag](
            @transient private var _sc: SparkContext,
            @transient private var deps: Seq[Dependency[_]]
        )
    3.在查看父类RDD getDependencies方法定义,直接过去构造器中的deps
    protected def getDependencies: Seq[Dependency[_]] = deps
    4.综上所述 HadoopRDD 的依赖关系为 Nil

案例2 MapPartitionsRDD

private[spark] class MapPartitionsRDD[U: ClassTag, T: ClassTag](
    var prev: RDD[T],
    f: (TaskContext, Int, Iterator[T]) => Iterator[U],  // (TaskContext, partition index, iterator)
    preservesPartitioning: Boolean = false,
    isFromBarrier: Boolean = false,
    isOrderSensitive: Boolean = false)
  extends RDD[U](prev)

说明 :
    1.实现类 MapPartitionsRDD并未重写 getDependencies方法,说明他使用父类Rdd的 getDependencies方法
    2.MapPartitionsRDD 继承的是 下面这种否则方式,并且指定的依赖关系为 Nil
    //辅助构造器
    def this(@transient oneParent: RDD[_]) =
        this(oneParent.context, List(new OneToOneDependency(oneParent)))
    3.综上所述  MapPartitionsRDD 的依赖关系为 OneToOneDependency

案例3 ShuffledRDD

class ShuffledRDD[K: ClassTag, V: ClassTag, C: ClassTag](
    @transient var prev: RDD[_ <: Product2[K, V]],
    part: Partitioner)
  extends RDD[(K, C)](prev.context, Nil)

说明 :
    1.实现类 ShuffledRDD 重写了 getDependencies方法
     override def getDependencies: Seq[Dependency[_]]
         List(new ShuffleDependency(prev, part, serializer, keyOrdering, aggregator, mapSideCombine))
    2.综上所述 ShuffledRDD 的依赖关系为 ShuffleDependency

Original: https://www.cnblogs.com/bajiaotai/p/16693971.html
Author: 学而不思则罔！
Title: Dependency 源码

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/683779/

转载文章受原作者版权保护。转载请注明原作者出处！

技术杂谈

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

JavaSE-时间差

public static String getDiffDateStr(Date startTime,Date endTime){ long diff = endTime.getT…

技术杂谈 2023年6月21日
0079
Apeaksoft iOS Toolkit for Mac/Win(iOS设备数据恢复软件)中文

Original: https://www.cnblogs.com/aurora-123/p/16865778.htmlAuthor: 佛系女孩Title: Apeaksoft i…

技术杂谈 2023年7月10日
0073
机器学习（3）数据的降维之特征选择

博客园：当前访问的博文已被密码保护请输入阅读密码: Original: https://www.cnblogs.com/cgy1995/p/9980369.htmlAuthor…

技术杂谈 2023年7月23日
0068
python-绘图与可视化

python 有许多可视化工具，但本书只介绍Matplotlib。Matplotlib是一种2D的绘图库，它可以支持硬拷贝和跨系统的交互，它可以在python脚本，IPython的…

技术杂谈 2023年7月25日
0083
一个简单的开源PHP爬虫框架『Phpfetcher』

这篇文章首发在吹水小镇：http://blog.reetsee.com/archives/366 要在手机或者电脑看到更好的图片或代码欢迎到博文原地址。也欢迎到博文原地址批评指正。…

技术杂谈 2023年5月31日
0090
每天一个 HTTP 状态码 102

102 Processing 是用于 WebDAV 请求的一种状态码… 102 Processing 102 Processing 是用于 WebDAV协议请求的状态…

技术杂谈 2023年7月11日
0071
finalize()方法什么时候被调用？析构函数(finalization)的目的是什么？

参考：《深入理解Java虚拟机》对于Java而言：调用时机：当垃圾回收器要宣告一个对象死亡时，至少要经过两次标记过程：如果对象在进行可达性分析后发现没有和GC Roots相连接…

技术杂谈 2023年5月30日
0095
Malformed UTF-8 characters, possibly incorrectly encoded

PHP 报错： [ error ] [0]Malformed UTF-8 characters, possibly incorrectly encoded 原因：返回的内容用 UT…

技术杂谈 2023年5月31日
0075
linux简单Socket编程-服务器端、客户端一对一连接

一、服务器端、客户端连接示意图注：（上述图片源于传智播客linux系统编程的视频截图）; 二、服务器端、客户端代码 1、服务器端代码 #include #include #inc…

技术杂谈 2023年7月11日
0086
在 Conda 虚拟环境中安装

完成时间：2022 年 2 月 24 日最后修改：— 因为一些原因，要用到 TensorRT 对训练好的模型进行推理加速，官网的文档全英文看得累啊，想找找现成的中文文…

技术杂谈 2023年7月11日
0056
ArcGIS Pro SDK获得线的交点

Geometry g = GeometryEngine.Instance.Intersection(line1, line2, GeometryDimension.esriGeom…

技术杂谈 2023年5月30日
0089
TCP标志信息

格式： none-first-fragment 基本ACL和高级ACL支持基于IP分片信息过滤报文。 IP分片除了首片报文外，还有后续分片报文，又叫做非首片分片报文。仅首片分片报文…

技术杂谈 2023年5月31日
0074
参数传递（值传递与引用传递）

按值传递和按引用传递。按值传递意味着当将一个参数传递给一个函数时，函数接收的是原始值的一个副本。因此，如果函数修改了该参数，仅改变副本，而原始值保持不变。按引用传递意味着当将一个参…

技术杂谈 2023年6月1日
0086
Hadoop的由来、Block切分、进程详解

Hadoop的由来、Block切分、进程详解一、hadoop的由来 Google发布了三篇论文: GFS(Google File System) MapReduce(数据计算方法…

技术杂谈 2023年7月11日
0063
HTML 5 标签

<!DOCTYPE HTML> <html> <body> <canvas id="myCanvas">your…

技术杂谈 2023年5月30日
0076
Jwt新手入门教程

Jwt的新手入门教程 1.Jwt究竟是什么东东？先贴官网地址：JSON Web Tokens – jwt.io 再贴官方的定义： What is JSON…

技术杂谈 2023年6月21日
0096

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

Dependency 源码

1. 思考 : 依赖的本质是什么呢？作用是什么？

2.class hierarchy

3.构造器

4.通过 RDD实现类 查看 依赖关系

案例1 HadoopRDD

案例2 MapPartitionsRDD

案例3 ShuffledRDD

大家都在看

4.通过 RDD实现类查看依赖关系