Flink SQL 子图复用逻辑分析

2023年10月22日上午8:55 • Python • 阅读 26

子图复用优化是为了找到SQL执行计划中重复的节点，将其复用，避免这部分重复计算的逻辑。先回顾SQL执行的主要流程 parser -> validate -> logical optimize -> physical optimize -> translateToExecNode。
而子图复用的逻辑就是在这个阶段进行的

private[flink] def translateToExecNodeGraph(
    optimizedRelNodes: Seq[RelNode],
    isCompiled: Boolean): ExecNodeGraph = {
    val nonPhysicalRel = optimizedRelNodes.filterNot(_.isInstanceOf[FlinkPhysicalRel])
    if (nonPhysicalRel.nonEmpty) {
      throw new TableException(
        "The expected optimized plan is FlinkPhysicalRel plan, " +
        s"actual plan is ${nonPhysicalRel.head.getClass.getSimpleName} plan.")
    }

    require(optimizedRelNodes.forall(_.isInstanceOf[FlinkPhysicalRel]))
    // Rewrite same rel object to different rel objects
    // in order to get the correct dag (dag reuse is based on object not digest)
    val shuttle = new SameRelObjectShuttle()
    val relsWithoutSameObj = optimizedRelNodes.map(_.accept(shuttle))
    // reuse subplan
    val reusedPlan = SubplanReuser.reuseDuplicatedSubplan(relsWithoutSameObj, tableConfig)
    // convert FlinkPhysicalRel DAG to ExecNodeGraph
    val generator = new ExecNodeGraphGenerator()
    val execGraph = generator.generate(reusedPlan.map(_.asInstanceOf[FlinkPhysicalRel]), isCompiled)

    // process the graph
    val context = new ProcessorContext(this)
    val processors = getExecNodeGraphProcessors
    processors.foldLeft(execGraph)((graph, processor) => processor.process(graph, context))
  }

可以看到这里首先会校验relNodes都是 FlinkPhysicalRel 物理执行计划的节点

require(optimizedRelNodes.forall(_.isInstanceOf[FlinkPhysicalRel]))

/**
* Rewrite same rel object to different rel objects.

*
* e.g.

* {{{
*      Join                       Join
*     /    \                     /    \
* Filter1 Filter2     =>     Filter1 Filter2
*     \   /                     |      |
*      Scan                  Scan1    Scan2
* }}}
* After rewrote, Scan1 and Scan2 are different object but have same digest.

*/
class SameRelObjectShuttle extends DefaultRelShuttle {
  private val visitedNodes = Sets.newIdentityHashSet[RelNode]()

  override def visit(node: RelNode): RelNode = {
    val visited = !visitedNodes.add(node)
    var change = false
    val newInputs = node.getInputs.map {
      input =>
      val newInput = input.accept(this)
      change = change || (input ne newInput)
      newInput
    }
    if (change || visited) {
      node.copy(node.getTraitSet, newInputs)
    } else {
      node
    }
  }
}

然后进行rel节点重写，RelShuttle的作用就是提供visit的模式根据实现的逻辑来替换树中的某些节点。可以看到这个实现中会将同一个objec(注意这里保存visitedNodes使用的是identity hash set) 第二次访问时 copy成一个新的对象，但是有相同的digest，这一步的目的是什么呢？
我们往下面看在后续生成ExecNode时, 会创建一个IdentityHashMap 来保存访问过的Rels，所以意思就是真正生成ExecNode时，是和Rels对象一一对应的。

private final Map> visitedRels = new IdentityHashMap();
private ExecNode generate(FlinkPhysicalRel rel, boolean isCompiled) {
    ExecNode execNode = visitedRels.get(rel);
    if (execNode != null) {
        return execNode;
    }

    if (rel instanceof CommonIntermediateTableScan) {
        throw new TableException("Intermediate RelNode can't be converted to ExecNode.");
    }

    List> inputNodes = new ArrayList<>();
    for (RelNode input : rel.getInputs()) {
        inputNodes.add(generate((FlinkPhysicalRel) input, isCompiled));
    }

    execNode = rel.translateToExecNode(isCompiled);
    // connects the input nodes
    List inputEdges = new ArrayList<>(inputNodes.size());
    for (ExecNode inputNode : inputNodes) {
        inputEdges.add(ExecEdge.builder().source(inputNode).target(execNode).build());
    }
    execNode.setInputEdges(inputEdges);

    visitedRels.put(rel, execNode);
    return execNode;
}

看到这里上面将同一个object 拆成两个的目的就更不可理解了，因为本来是一个object的话在这里天然就复用了，但是拆成2个反而就不能复用了。
这里的目的是先将相同的object被重复引用的节点拆开，然后再根据digest相同以及内部规则来决定是否复用。这样就可以有Flink引擎来控制哪些节点是可以合并的。

在context中通过 ReusableSubplanVisitor构造两组映射关系

// mapping a relNode to its digest
private val mapRelToDigest = Maps.newIdentityHashMap[RelNode, String]()
// mapping the digest to RelNodes
private val mapDigestToReusableNodes = new util.HashMap[String, util.List[RelNode]]()

中间的逻辑比较简单就是遍历整棵树，查找是否存在可reusable的节点，怎么判断可reusable呢？

同一digest下，挂了多个RelNode节点，那么这一组RelNode是同一语义的，是可以复用的候选
节点没有disable reusable

/** Returns true if the given node is reusable disabled */
private def isNodeReusableDisabled(node: RelNode): Boolean = {
  node match {
    // TableSourceScan node can not be reused if reuse TableSource disabled
    case _: FlinkLogicalLegacyTableSourceScan | _: CommonPhysicalLegacyTableSourceScan |
    _: FlinkLogicalTableSourceScan | _: CommonPhysicalTableSourceScan =>
    !tableSourceReuseEnabled
    // Exchange node can not be reused if its input is reusable disabled
    case e: Exchange => isNodeReusableDisabled(e.getInput)
    // TableFunctionScan and sink can not be reused
    case _: TableFunctionScan | _: LegacySink | _: Sink => true
    case _ => false
  }
}

例如TableFunctionScan就不能被Reuse(这个原因还没理解)，或者exchange只有input被reuse时，该节点才能复用

在以上的visit执行完之后以及知道哪些节点是可以复用的了，最后通过一个Shuttle来将可复用的节点进行替换

class SubplanReuseShuttle(context: SubplanReuseContext) extends DefaultRelShuttle {
  private val mapDigestToNewNode = new util.HashMap[String, RelNode]()

  override def visit(rel: RelNode): RelNode = {
    val canReuseOtherNode = context.reuseOtherNode(rel)
    val digest = context.getRelDigest(rel)
    if (canReuseOtherNode) {
      val newNode = mapDigestToNewNode.get(digest)
      if (newNode == null) {
        throw new TableException("This should not happen")
      }
      newNode
    } else {
      val newNode = visitInputs(rel)
      mapDigestToNewNode.put(digest, newNode)
      newNode
    }
  }
}

实现的方式就是记录每个digest对应的newNode，当可以复用时，那么直接返回该复用digest对应的RelNode(替换了原先的digest相同，对象不同的RelNode)，这样整棵树中可复用的节点又重新合并了。

Original: https://www.cnblogs.com/Aitozi/p/16687308.html
Author: Aitozi
Title: Flink SQL 子图复用逻辑分析

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/802815/

转载文章受原作者版权保护。转载请注明原作者出处！

python

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

Django 常用组件

Django是一款高级的Python Web框架，可以帮助开发者快速创建web应用。我们这里整理了30款Django开发中常用的软件包，学会使用它们可以节省大量开发时间，提高开发效…

Python 2023年8月4日
0054
30分钟掌握 Webpack

为什么使用 Webpack 在我们进行传统网页开发中，会在 index.html 中引入大量的 js 和 css 文件，不仅可能会导致命名冲突，还会使页面体积变大，因为如果引用了第…

Python 2023年6月12日
0091
MATLAB中print函数使用

打印图窗纸张副本将图窗复制到剪贴板将图窗另存为图像文件将图窗另存为向量图形文件向 EPS 文件添加 TIFF 预览指定要保存的图窗以屏幕大小和分辨率保存图窗保存填满页…

Python 2023年8月2日
00104
【Pygame实战】只有一个币，投《勇者大冒险》还是《街霸》?（经典复刻，谁的青春回来了？）

导语不知道大家有没有这样的经历，在学校电脑课上打开一个叫做 4399的神秘网站，然后精心挑选一款小游戏在老师讲课时默默玩耍。这种惊心动魄的感觉像极了偷情（滑稽.jpg），而…

Python 2023年9月18日
0069
C语言基础要点

C语言基础 C程序编译过程 C程序编译步骤汇编语言 32关键字数据类型常量 size程序类型限定 goto语句指针指针和字符串作用域函数内存进程内存结构可执行…

Python 2023年6月3日
0085
记录在一次前后端分离的项目开发中遇到的坑

问题如下图：在一次实际的项目开发中，我负责前端开发，使用的是vue+axios，后台使用的是php，由于我们的开发环境处于不同的域名和端口下，所以出现了跨域问题，当然php服务…

Python 2023年6月10日
0071
Django和使用的一些技巧

这里其实有个小问题。首先发送到后端的东西，一定是保存到 request.body里面，然后可能会根据 dataType或者 headers的content-T…

Python 2023年8月6日
0042
scrapy爬虫之爬取百度手机助手app信息并保存至mongodb数据库（附源码）

声明：本文内容仅供学习python爬虫的同学用作学习参考！！！如有错误，请评论指出，非常感谢！！！ 1.使用环境 python 3.8scrapy 2.5mongodb…

Python 2023年10月3日
0072
【爬虫实战案例1】基于Scrapy+Xpath简单实现爬虫需求

前言分享一篇使用部分爬虫技术简单实现对媒体类网页按需求爬取文章并保存到本地指定文件夹的案例，仅供相关学习者参考，学习过程切勿对网站频繁访问而造成网页瘫痪，量力而为！！！爬取需求…

Python 2023年10月1日
0052
〖Python零基础入门篇㊾〗- Python中的 os 包

### 回答1： Python_是一种简单易学的编程语言，适合 _零基础_入门。下面我将介绍一些入门 _Python_编程的建议和方法。首先，你可以开始学习 _Python_的基…

Python 2023年8月2日
0053
70 行 Python 代码写春联，行书隶书楷书随你选

前言相信现在有很多小伙伴都不会写毛笔字了，今天想用python来写一幅春联，不知道有没有人喜欢。该文用的是田英章老师的楷书，我在网上总共找到了1600个汉字，因此，春联用字被限…

Python 2023年11月2日
0066
爬虫日记(70)：Scrapy的SitemapSpider使用

在开发爬虫的过程中，经常会遇到整个网站内容进行下载，比如像头条的APP类似的需求，它需要统计全世界上所有的新闻网站，看看这些网站出现什么内容是热点，这样把所有热点放到一起，再推荐给…

Python 2023年10月5日
0045
pygame中rect.right rect.left rect.top rect.bottom与rect.x rect.y 的关系

在pygame中，引入对象，不免涉及到对象在屏幕中的位置。而这样的位置，通常需要用坐标进行表示。在pygame中，坐标采用笛卡尔坐标系，以左上角为坐标原点，水平向右的方向为x轴的…

Python 2023年9月19日
0057
pycharm安装 numpy 库时出现 error occurred when installing package “numpy“以及解决办法

今天网上复制了一个代码，其中有个 import numpy as np，运行时提示需要安装 numpy 库，然后我按照网上的方法，按顺序点击 File –> Se…

Python 2023年8月2日
10105
数据分析入门 | kaggle泰坦尼克任务（二）—＞pandas基础

系列索引：数据分析入门 | kaggle泰坦尼克任务; 文章目录一、pandas基础 * （1）数据类型（2）基本操作（3）筛选的逻辑（4）loc函数和iloc函数：一、…

Python 2023年8月6日
0059
Flask框架实现文件下载功能（1）

然后在app.py中加入这么一个路由： from flask import Flask, Response from flask import render_template ap…

Python 2023年8月9日
0056

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

Flink SQL 子图复用逻辑分析

大家都在看