Spark Sql之count(distinct)分析&&学习&&验证

2023年11月12日下午8:34 • 大数据 • 阅读 54

Spark Sql之count distinct

学习内容
spark 对count（distinct）的优化
数据膨胀原理
*
–
distinct源码
spark sql grouping sets
优化思路
*
1、增加 expand的过程中partition 的数量
2、缩减expand 的数据量
参考

学习内容

spark sql count(distinct)
数据膨胀
count(distinct)原理
grouping sets原理
count(distinct)优化

spark 对count（distinct）的优化

先说结论：spark sql和hive不一样，spark对count(distinct)做了group by优化

在hive中count().

hive往往只用一个 reduce 来处理全局聚合函数，最后导致数据倾斜；在不考虑其它因素的情况下，我们的优化方案是先 group by 再 count 。


select count(distinct id) from table_a

select
  count(id)
from
(
    select
        id
    from table_a group by id
) tmp

在使用spark sql 时，不用担心这个问题，因为 spark 对count distinct 做了优化：

explain
select
    count(distinct id),
    count(distinct name)
from table_a

== Physical Plan ==
*(3) HashAggregate(keys=[], functions=[count(if ((gid#147005 = 2)) table_a.id#147007 else null), count(if ((gid#147005 = 1)) table_a.name#147006 else null)])
+- Exchange SinglePartition
   +- *(2) HashAggregate(keys=[], functions=[partial_count(if ((gid#147005 = 2)) table_a.id#147007 else null), partial_count(if ((gid#147005 = 1)) table_a.name#147006 else null)])
      +- *(2) HashAggregate(keys=[table_a.name#147006, table_a.id#147007, gid#147005], functions=[])
         +- Exchange(coordinator id: 387101114) hashpartitioning(table_a.name#147006, table_a.id#147007, gid#147005, 4096), coordinator[target post-shuffle partition size: 67108864]
            +- *(1) HashAggregate(keys=[table_a.name#147006, table_a.id#147007, gid#147005], functions=[])
               +- *(1) Expand [List(name#146984, null, 1), List(null, id#146979, 2)], [table_a.name#147006, table_a.id#147007, gid#147005]
                  +- *(1) Project [id#146979, name#146984]
                     +- *(1) FileScan parquet table_a

数据膨胀原理

从上述执行计划可以看到，expand，那为什么为产生数据膨胀呐？

distinct算子在处理过程中是将distinct后的字段和group by字段共同作为key传入reduce，导致shuffle前map阶段没有预聚合，同时shuffle时网络传输数据量过大消耗增加，对reduce处理时负载也增大

distinct算子在处理过程中会将原有数据膨胀，有N个DISTINCT关键字数据就会在map端膨胀N倍，同时对shuffle和reduce的长尾影响（原因1）也会扩大N

expand 之后，再以id、name 为 key 进行HashAggregate 也就是 group by ，这样以来，就相当于去重了。后面直接计算count (id) 、 count(name) 就可以，把数据分而治之。在一定程度上缓解了数据倾斜。

; distinct数据膨胀

 val sql:String =
    s"""
       |select
       |  count(distinct sha1),
       |  count(distinct task_id),
       |  count(distinct task_type)
       |from tmp
       |""".stripMargin

    val df2: DataFrame = session.sql(sql)
    df2.show()
    df2.explain(true)

grouping sets数据膨胀

    val sql1:String =
      s"""
         |select
         |  count(sha1),
         |  count(task_id),
         |  count(task_type)
         |from (
         |select sha1,task_id,task_type
         |from tmp
         |group by grouping sets(sha1, task_id, task_type)
         |)
         |""".stripMargin

    val df22: DataFrame = session.sql(sql1)
    df22.explain(true)
    df22.show()

开个坑

在spark sql里面小数据量的话，count（distinct）和gruop by的执行时间是差不多的，
但是我看到有篇文章介绍的是大数据量的distinct和group by的对比，说的是大数据量的话无法在内存里HashAggregate也就是group by，两者的执行时间的差距还是很大的。具体的还没测试。。。

distinct源码

def rewrite(a: Aggregate): Aggregate = {

    val aggExpressions = a.aggregateExpressions.flatMap { e =>
      e.collect {
        case ae: AggregateExpression => ae
      }
    }

    val distinctAggGroups = aggExpressions.filter(_.isDistinct).groupBy { e =>
        val unfoldableChildren = e.aggregateFunction.children.filter(!_.foldable).toSet
        if (unfoldableChildren.nonEmpty) {

          unfoldableChildren
        } else {
          e.aggregateFunction.children.take(1).toSet
        }
    }

    if (distinctAggGroups.size > 1) {

      val gid = AttributeReference("gid", IntegerType, nullable = false)()
      val groupByMap = a.groupingExpressions.collect {
        case ne: NamedExpression => ne -> ne.toAttribute
        case e => e -> AttributeReference(e.sql, e.dataType, e.nullable)()
      }
      val groupByAttrs = groupByMap.map(_._2)
      ....

      }

      val expand = Expand(
        regularAggProjection ++ distinctAggProjections,
        groupByAttrs ++ distinctAggChildAttrs ++ Seq(gid) ++ regularAggChildAttrMap.map(_._2),
        a.child)
        .....

  }

重点代码：
//todo 当有多个distinct聚合表达式时，进行expand
if (distinctAggGroups.size > 1) { expand }

spark sql grouping sets

grouping sets 、rollup 、cube 是用来处理多维分析的函数：

grouping sets：对分组集中指定的组表达式的每个子集执行group by，group by A,B grouping sets(A,B)就等价于 group by A union group by B,其中A和B也可以是一个集合，比如group by A,B,C grouping sets((A,B),(A,C))。

rollup：在指定表达式的每个层次级别创建分组集。group by A,B,C with rollup首先会对(A、B、C)进行group by，然后对(A、B)进行group by，然后是(A)进行group by，最后对全表进行group by操作。

cube : 为指定表达式集的每个可能组合创建分组集。首先会对(A、B、C)进行group by，然后依次是(A、B)，(A、C)，(A)，(B、C)，(B)，©，最后对全表进行group by操作。

前文也说了，grouping sets也是利用expand的方式

优化思路

上文我们基本可以了解到了，是由于expand导致的慢，优化方向可以朝着减少distinct关键的出现的次数，减少数据膨胀方向入手

1、增加 expand的过程中partition 的数量

但是这样有一个弊端：同时启动太多task 会造成集群资源紧张，也会导致其它任务没有资源。并且数据是逐日增加的，总体上不好控制。

2、缩减expand 的数据量

从sql结构上：
可以把计算的指标拆开，分两次计算，然后再 join。
总体的处理原则就是，让过滤掉的数据尽量的多，expand 时的数据尽量少：

参考

参考博客

Original: https://blog.csdn.net/Lzx116/article/details/126153664
Author: 南风知我意丿
Title: Spark Sql之count(distinct)分析&&学习&&验证

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/817742/

转载文章受原作者版权保护。转载请注明原作者出处！

大数据

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

GPS北斗卫星校时服务器的关键技术和特点

GPS北斗卫星校时服务器的关键技术和特点 GPS北斗卫星校时服务器的关键技术和特点京准电子科技官微——ahjzsz 1) 多时间源选择/ 防误/无缝切换技术时间同步系统至少支持…

大数据 2023年6月3日
0080
【轻量级NoSQL数据库与PythonWeb-Flask框架组合使用】4-项目布局及应用配置

创建并进入项目文件夹: $ mkdir flask-tutorial $ cd flask-tutorial 本教程假定项目文件夹名称为 flask-tutorial ，本教程中代…

大数据 2023年11月11日
0050
sparkSQL连接hive失败案例和解决办法

1.开始我就是按照网上的办法连接hive，但一直出现问题，现将我失败的场景和大家看一下，以及遇到同样的问题解决的办法，防止大家以后踩坑 2.首先如果是遇到这个问题就是hive的hi…

大数据 2023年11月12日
0037
【Redis笔记】缓存穿透与缓存击穿以及应对方法

大数据 2023年11月16日
0036
hive创建分区表报错AccessControlException Permission denied: user=NONE, access=WRITE, inode

错误提示信息 [2020-09-23 18:07:58] )sql> create table order_partition ( order_no string, orde…

大数据 2023年5月25日
0098
Linux中信号量源码的分析

如果一个任务获取信号量失败，该任务就必须等待，直到其他任务释放信号量。本文的重点是，在Linux中，当有任务释放信号量之后，如何唤醒正在等待该信号量的任务。信号量定义如下： st…

大数据 2023年5月27日
0059
【云原生】K8s pod 动态弹性扩缩容 HAP（metrics-server）

一、概述二、安装 metrics-server 1）HPA 前提条件 2）开启 API Aggregator 3）开始安装 metrics-server 三、Horizontal…

大数据 2023年6月3日
0082
实验一：基于HMM的拼音转汉字程序|自然语言

啊哦~你想找的内容离你而去了哦内容不存在，可能为如下原因导致： ① 内容还在审核中 ② 内容以前存在，但是由于不符合新的规定而被删除 ③ 内容地址错误 ④ 作者删除了内容。可…

大数据 2023年5月28日
0083
C#+SQLite操作之一连接数据库

提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录前言一、需要做哪些配置二、创建数据库三、C#连接数据库总结前言某非联网设备采用了C#+SQL…

大数据 2023年11月10日
0058
任务二：数据清洗

题目要求: 编写Scala工程代码，将ods库中相应表数据全量抽取到Hive的dwd库中对应表中。表中有涉及到timestamp类型的，均要求按照yyyy-MM-dd HH:mm:…

大数据 2023年11月12日
0052
System.Data.SQLite 与 Microsoft.Data.Sqlite

在 2005 年，Robert Simpson 创建了System.Data.SQLite，这是 ADO.NET 2.0 的一个 SQLite 提供程序。在 2010 年，SQL…

大数据 2023年11月11日
0050
Spark连接Hive读取数据

大数据 2023年11月16日
0061
如何用C++实现一个简易数据库（三）

如何用C++实现一个简易数据库（三）现在我们先从最简单的开始，我们即将完成的数据库功能非常简单。仅支持 insert和 select两项将一切数据储存到内存中，即退出程序后一…

大数据 2023年11月10日
0056
【neotic-moveit】Warehouse – Persistent Scenes and States

仓库 – 持久化场景和状态 Warehouse – Persistent Scenes and States RViz 的”MotionPlan…

大数据 2023年11月11日
0045
C# 操作SQLite的工具SQLite-PCL

1 从NuGet包中添加 2.github源码地址 https://github.com/praeclarum/sqlite-net C# 操作代码 private void Bu…

大数据 2023年11月11日
0049
hive sql 和 spark sql的区别

大数据 2023年11月14日
0037

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31