pyspark的聚合函数agg使用

2023年8月17日上午1:41 • Python • 阅读 26

pyspark中聚合函数agg的使用

作为聚合函数agg，通常是和分组函数groupby一起使用，表示对分组后的数据进行聚合操作；
如果没有分组函数，默认是对整个dataframe进行聚合操作。

下面从两方面讲agg。第一就是聚合操作的写法，第二是常用的聚合函数

from pyspark.sql import SparkSession
from pyspark.sql import functions as F
spark = SparkSession.builder.appName('increase delete change select').master('local').getOrCreate()
df = spark.createDataFrame([
    ['alex',1,2,'string1'],
    ['paul',11 ,12,'string2'],
    ['alex',21,22,'leon'],
    ['james',31,32,'traveler']],schema=('name string,a long, b long, c string'))

df.show()

+-----+---+---+--------+
| name|  a|  b|       c|
+-----+---+---+--------+
| alex|  1|  2| string1|
| paul| 11| 12| string2|
| alex| 21| 22|    leon|
|james| 31| 32|traveler|
+-----+---+---+--------+

第一种写法：groupby后直接跟一个聚合函数

这种写法中，如果聚合函数内没有指定列名，则表示对所有列都采取聚合，如果指定列名，则只对具体指定的那些列进行聚合。

显然这有一个特点，聚合类型只能有一种，比如下面的例子，聚合只能有一个avg，不能混合

df.groupBy('name').avg('a','b').show()

+-----+------+------+
| name|avg(a)|avg(b)|
+-----+------+------+
| paul|  11.0|  12.0|
| alex|  11.0|  12.0|
|james|  31.0|  32.0|
+-----+------+------+

第二种写法：agg里面跟一些聚合函数
这种写法中，可以有多种类型的聚合函数，对不同的列可以指定不同类型的聚合函数
通常对于这种写法中又有两种写法：

第一种是字典形式：key是列名，value是聚合函数类型；
第二种是聚合函数内写入列名；

df.groupBy('name').agg({'a':'avg','b':'max'}).show()

+-----+------+------+
| name|avg(a)|max(b)|
+-----+------+------+
| paul|  11.0|    12|
| alex|  11.0|    22|
|james|  31.0|    32|
+-----+------+------+

df.groupBy('name').agg(F.avg('a'),F.max('b')).show()

+-----+------+------+
| name|avg(a)|max(b)|
+-----+------+------+
| paul|  11.0|    12|
| alex|  11.0|    22|
|james|  31.0|    32|
+-----+------+------+

针对以上的写法做一点解释：为什么字典形式的时候只用写max，avg，而下面第二种写法中却要写F.max,F.avg
我认为这是因为这俩是两套函数，第一种写法用的是dataframe的内部函数，但是第二种写法用的是functions提供的函数
虽然二者最终的效果是一样的，但是函数的两套的。

这部分聚合函数可直接在groupby后，及：df.groupBy(‘name’).avg();
也可以在agg后采用字典形式：df.groupBy(‘name’).agg({‘a’:’avg’})

聚合函数有：
avg() :求均值
count()：计数
max() :求最大值
mean() :求均值
min() :求最小值
sum() :求和

df.groupBy('name').agg({'a':'avg','b':'count'}).show()

+-----+------+--------+
| name|avg(a)|count(b)|
+-----+------+--------+
| paul|  11.0|       1|
| alex|  11.0|       2|
|james|  31.0|       1|
+-----+------+--------+

这部分的聚合函数需要进行导入：from pyspark.sql import functions as F

这部分是函数必须是用在agg里面的，如：df.groupBy(‘name’).agg(F.avg(‘a’),F.max(‘b’)).show()

聚合函数如下：

collect_list ：将分组后的同一列聚合为list
collect_set ：将分组后的同一列聚合为set.
approx_count_distinct ：统计某一列中不同的个数
avg ：求均值
mean ：求均值
first ：求第一个值
last ：求最后一个值
count ：求分组有的个数
max ：求最大值
min ：求最小值
stddev_samp ：求均方差
sum ：求和
var_pop ：求方差

df.agg(F.approx_count_distinct(df.a)).show()

+------------------------+
|approx_count_distinct(a)|
+------------------------+
|                       4|
+------------------------+

df.groupBy('name').agg(F.avg('a')).show()

+-----+------+
| name|avg(a)|
+-----+------+
| paul|  11.0|
| alex|  11.0|
|james|  31.0|
+-----+------+

df.groupBy('name').agg(F.count('a')).show()

+-----+--------+
| name|count(a)|
+-----+--------+
| paul|       1|
| alex|       2|
|james|       1|
+-----+--------+

df.groupBy('name').agg(F.kurtosis('a')).show()

+-----+-----------+
| name|kurtosis(a)|
+-----+-----------+
| paul|       null|
| alex|       -2.0|
|james|       null|
+-----+-----------+

df.groupBy('name').agg(F.stddev_samp('a')).show()

+-----+------------------+
| name|    stddev_samp(a)|
+-----+------------------+
| paul|              null|
| alex|14.142135623730951|
|james|              null|
+-----+------------------+

df.groupBy('name').agg(F.sum('a')).show()

+-----+------+
| name|sum(a)|
+-----+------+
| paul|    11|
| alex|    22|
|james|    31|
+-----+------+

df.groupBy('name').agg(F.var_pop('a')).show()

+-----+----------+
| name|var_pop(a)|
+-----+----------+
| paul|       0.0|
| alex|     100.0|
|james|       0.0|
+-----+----------+

Original: https://blog.csdn.net/weixin_41885239/article/details/122447766
Author: 远方的旅行者
Title: pyspark的聚合函数agg使用

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/751662/

转载文章受原作者版权保护。转载请注明原作者出处！

python

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

图像中的注意力机制详解(SEBlock | ECABlock | CBAM)

图像中的注意力机制详解 * – 一、前言 – 二、SENet——通道注意力机制 – + 1. 论文介绍 + * SEBlock结构图： * 摘…

Python 2023年9月17日
0043
策略模式

404. 抱歉，您访问的资源不存在。可能是网址有误，或者对应的内容被删除，或者处于私有状态。代码改变世界，联系邮箱 contact@cnblogs.com 弹尽粮绝，会员救园：…

Python 2023年10月13日
0053
python实现简易五子棋小游戏（三种方式）

tkinter库：Python的标准Tk GUI工具包的接口示例： from tkinter import * root = Tk() #你&#x7…

Python 2023年8月30日
0055
用Python写了一个上课点名系统（附源码）（自制考勤系统）

今天浏览了这样的短视频后，我想我是否可以写一个类似的点名程序。我等不下去了。只要说和写就行了。 [En] After browsing a short video like thi…

Python 2023年5月24日
0068
【Kotlin】标准库函数总结 ( apply 函数 | let 函数 | run 函数 | with 函数 | also 函数 | takeIf 函数 | takeUnless 函数 )

文章目录一、apply 标准库函数二、let 标准库函数三、run 标准库函数 * 1、run 函数传入 Lambda 表达式作为参数 2、run 函数传入函数引用作为参数 …

Python 2023年11月4日
0043
我的Blog——python封装为exe的注意事项（封装exe看这一篇基本就够了）

目录如何封装成exe？ 1.auto-py-to-exe（推荐） 2.Pyinstaller 如何使用：主页： pyinstaller-pypihttps://pypi.org…

Python 2023年8月9日
0063
Doris安装部署

下载安装 Doris运行在Linux环境中，推荐 CentOS 7.x 或者 Ubuntu 16.04 以上版本，同时你需要安装 Java 运行环境（JDK最低版本要求是8） 1、…

Python 2023年10月13日
0069
python中matplotlib：updated matplotlibrc file、查看库的版本和位置、EnvironmentError: [WinError 5]

目录 1、遇到的问题： 2、原因： 3、解决办法： 4、执行pip install遇到 Could not install packages due to an Environme…

Python 2023年8月31日
0054
需求变更，敏捷项目应如何做？

前两天我们在做项目复盘的时候，发现其实在整个过程中还是遇到了不少需求变更的问题，不过还好我们算是比较圆满地解决了这些突如其来的问题。相信也会有很多朋友和我们团队一样，经常遇到客户这…

Python 2023年10月22日
0024
分布式机器学习：模型平均MA与弹性平均EASGD（PySpark）

算法的完整实现代码我已经上传到了GitHub仓库：Distributed-ML-PySpark（包括其它分布式机器学习算法），感兴趣的童鞋可以前往查看。计算机科学一大定律：许多看…

Python 2023年10月28日
0036
边玩边学！交互式可视化图解！快收藏这18个机器学习和数据科学网站！⛵

💡 作者：韩信子@ShowMeAI📘 机器学习实战系列：https://www.showmeai.tech/tutorials/41📘 深度学习实战系列：https://www.s…

Python 2023年10月14日
0061
Android网络请求(4) 网络请求框架Volley

Android网络请求(4) 网络请求框架Volley Volley是Google在2013年5月15日到17日在旧金山Moscone中心举办网络开发者年会中推出的Android异…

Python 2023年10月14日
0022
如何在 Jupyter Notebook 中切换 conda 虚拟环境？

Anaconda的base环境是默认带jupyter notebook的，自己创建的虚拟环境需要自己先装一下jupyter notebook。 conda activate pyt…

Python 2023年9月8日
0040
直播CDN调度技术关键挑战与架构设计

作者：胡济麟 1、背景介绍 1.1 直播业务特点互联网视频直播是一种消息媒介形态，提供时产时消的内容，经过多年，已经发展出秀场、游戏、电商、体育等多种业务形态。主要特点是：内容实…

Python 2023年10月15日
0052
Obsidian中使用Calendar插件快捷建立日记、周记

Calendar插件 Calendar插件是我第一个安装使用的插件，插件可以帮助我们很便捷的记录每天的工作插件效果图插件下载下载地址插件安装 # Obsidian如何手动下…

Python 2023年6月3日
00107
第六章平均绝对误差（MAE）与均方根误差（RMSE）

目录 6.1 平均绝对误差 6.1.1 平均绝对误差概念 6.1.2 Python代码实现平均绝对误差 6.2 均方根误差 6.2.1 均方根误差的概念 6.2.2 Python代…

Python 2023年8月2日
0053

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

pyspark的聚合函数agg使用

pyspark中聚合函数agg的使用

大家都在看