Pandas知识点-详解聚合函数agg

2023年7月15日上午5:33 • 人工智能 • 阅读 63

Pandas知识点-详解聚合函数agg

Pandas提供了多个聚合函数，聚合函数可以快速、简洁地将多个函数的执行结果聚合到一起。
本文介绍的聚合函数为DataFrame.aggregate()，别名DataFrame.agg()，aggregate()和agg()是同一个函数，仅名字不同。
agg()参数和用法介绍
agg(self, func=None, axis=0, args, *kwargs):

func: 用于聚合数据的函数，如max()、mean()、count()等，函数必须满足传入一个DataFrame能正常使用，或传递到DataFrame.apply()中能正常使用。
func参数可以接收函数的名字、函数名的字符串、函数组成的列表、行/列标签和函数组成的字典。
axis: 设置按列还是按行聚合。设置为0或index，表示对每列应用聚合函数，设置为1或columns，表示对每行应用聚合函数。
*args: 传递给函数func的位置参数。
**kwargs: 传递给函数func的关键字参数。

返回的数据分为三种：scalar（标量）、Series或DataFrame。

scalar: 当Series.agg()聚合单个函数时返回标量。
Series: 当DataFrame.agg()聚合单个函数时，或Series.agg()聚合多个函数时返回Series。
DataFrame: 当DataFrame.agg()聚合多个函数时返回DataFrame。

传入单个参数


import pandas as pd
import numpy as np

df = pd.DataFrame(
    {'Col-1': [1, 3, 5], 'Col-2': [2, 4, 6],
     'Col-3': [9, 8, 7], 'Col-4': [3, 6, 9]},
    index=['A', 'B', 'C'])
print(df)

   Col-1  Col-2  Col-3  Col-4
A      1      2      9      3
B      3      4      8      6
C      5      6      7      9

res1 = df.agg(np.mean)
print('-' * 30, '\n', res1, sep='')
res2 = df.mean()
print('-' * 30, '\n', res2, sep='')
res3 = df['Col-1'].agg(np.mean)
print('-' * 30, '\n', res3, sep='')

Col-1    3.0
Col-2    4.0
Col-3    8.0
Col-4    6.0
dtype: float64
      Col-1  Col-2  Col-3  Col-4
mean    3.0    4.0    8.0    6.0
amax    5.0    6.0    9.0    9.0
sum     9.0   12.0   24.0   18.0
     Col-1  Col-2  Col-3
sum    9.0   12.0    NaN
max    5.0    NaN    9.0
min    NaN    2.0    7.0

在agg()中，可以用列表的方式传入多个函数，会将这些函数在每一列的执行结果聚合到一个DataFrame中，结果DataFrame中的索引为对应的函数名。
也可以用字典的方式按列/行指定聚合函数，会将指定列/行与对应函数的执行结果聚合到一个DataFrame中，列/行和函数没有对应关系的位置填充空值。
在上面的情况中，函数名都可以换成用字符串的方式传入，结果一样。


res7 = df.agg(X=('Col-1', 'sum'), Y=('Col-2', 'max'), Z=('Col-3', 'min'),)
print('-' * 30, '\n', res7, sep='')
res8 = df.agg(X=('Col-1', 'sum'), Y=('Col-2', 'max'), Zmin=('Col-3', 'min'), Zmax=('Col-3', 'max'))
print('-' * 30, '\n', res8, sep='')

      Col-1  Col-2  Col-3
X       9.0    NaN    NaN
Y       NaN    6.0    NaN
Zmin    NaN    NaN    7.0
Zmax    NaN    NaN    9.0

agg()还支持将不同的列/行和函数组合成元组，赋值给一个自定义的索引名，聚合结果DataFrame的索引按自定义的值重命名。
用这种方式传入函数时，元组中只能有两个元素：列/行名和一个函数，不能同时传入多个函数，如果要对同一列/行执行多个函数，需要用多个元组多次赋值。
传入自定义函数和匿名函数

def fake_mean(s):
    return (s.max()+s.min())/2

res9 = df.agg([fake_mean, lambda x: x.mean()])
print('-' * 40, '\n', res9, sep='')
res10 = df.agg([fake_mean, lambda x: x.max(), lambda x: x.min()])
print('-' * 40, '\n', res10, sep='')

           Col-1  Col-2  Col-3  Col-4
fake_mean    3.0    4.0    8.0    6.0
     5.0    6.0    9.0    9.0
     1.0    2.0    7.0    3.0

传入自定义函数和匿名函数时，聚合结果中对应的索引也是显示函数名字，匿名函数显示

print(df.describe())

       Col-1  Col-2  Col-3  Col-4
count    3.0    3.0    3.0    3.0
mean     3.0    4.0    8.0    6.0
std      2.0    2.0    1.0    3.0
min      1.0    2.0    7.0    3.0
25%      2.0    3.0    7.5    4.5
50%      3.0    4.0    8.0    6.0
75%      4.0    5.0    8.5    7.5
max      5.0    6.0    9.0    9.0

describe()函数包含了数值个数、均值、标准差、最小值、1/4分位数、中位数、3/4分位数、最大值。

from functools import partial

per_20 = partial(pd.Series.quantile, q=0.2)
per_20.__name__ = '20%'

per_80 = partial(pd.Series.quantile, q=0.8)
per_80.__name__ = '80%'
res11 = df.agg([np.min, per_20, np.median, per_80, np.max])
print('-' * 40, '\n', res11, sep='')

        Col-1  Col-2  Col-3  Col-4
amin      1.0    2.0    7.0    3.0
20%       1.8    2.8    7.4    4.2
median    3.0    4.0    8.0    6.0
80%       4.2    5.2    8.6    7.8
amax      5.0    6.0    9.0    9.0

用agg()函数可以聚合实现describe()相同的效果，只要将函数组合在一起传给agg()即可。所以我们可以根据自己的需要来增加或裁剪describe()中的内容。
上面的例子中，pd.Series.quantile()是pandas中求分位数的函数，默认是求中位数，指定q参数可以计算不同的分位数。
partial()是Python的functools内置库中的函数，作用是给传入它的函数固定参数值，如上面分别固定quantile()的q参数为0.2/0.8。
分组聚合结合使用


res12 = df.groupby('Col-1').agg([np.min, np.max])
print('-' * 40, '\n', res12, sep='')

res13 = df.groupby('Col-1').agg({'Col-2': [np.min, np.mean, np.max]})
print('-' * 40, '\n', res13, sep='')

      Col-2
       amin mean amax
Col-1
1         2  2.0    2
3         4  4.0    4
5         6  6.0    6

agg()经常接在分组函数groupby()的后面使用，先分组再聚合，分组之后可以对所有组聚合，也可以只聚合需要聚合的组。
groupby()详解参考：Pandas知识点-详解分组函数groupby

res14 = df.groupby('Col-1').agg(
    c2_min=pd.NamedAgg(column='Col-2', aggfunc='min'),
    c3_min=pd.NamedAgg(column='Col-3', aggfunc='min'),
    c2_sum=pd.NamedAgg(column='Col-2', aggfunc='sum'),
    c3_sum=pd.NamedAgg(column='Col-3', aggfunc='sum'),
    c4_sum=pd.NamedAgg(column='Col-4', aggfunc='sum')
)
print('-' * 40, '\n', res14, sep='')

`txt

Original: https://blog.csdn.net/weixin_43790276/article/details/125963758
Author: 小斌哥ge
Title: Pandas知识点-详解聚合函数agg

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/693640/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

【头歌实验】一、Python初体验——Hello World

文章目录 >>> 第1关：Hello Python，我来了！ * 任务描述相关知识 – Python交互式编程模式 Python脚本式编程模式 Pr…

人工智能 2023年6月26日
0067
Bubbliiiing版本yolov7 c++opencv dnn部署

使用B导的yolov7代码部署，代码地址：https://github.com/bubbliiiing/yolov7-pytorch 模型的的训练看B导即可，up主地址：Bubbl…

人工智能 2023年6月17日
0094
pytorch的eval()失效剖析及解决方案

一般情况下，模型在训练的时候，需要保证是train()模式，而在评估时需要保证是eval()模式。因为很多时候，模型中会包含dropout、BN的操作，而eval()模式下这两个功…

人工智能 2023年7月22日
0040
Package | 解决 Windows10 Anaconda环境 CUDA11.5 pytorch运行报错 No CUDA runtime is found

在windows下使用anaconda管理多个环境（尤其用于模型训练），已成为算法工程师的一种基本技能。平时大部分时间都在用linux+docker，我也趁着这次的环境调试好好学习…

人工智能 2023年6月16日
00120
python –Pandas详解

pip install pandas 检验是否安装成功 import pandas print(pandas.__version__) 输&#x51F…

人工智能 2023年7月6日
0080
PRN（20220826）：Learning to Prompt for Continual Learning (CVPR 2022)[理解不了篇]

@inproceedings{wang2022learning, title={Learning to prompt for continual learning}, author…

人工智能 2023年7月28日
0057
PV-RCNN之Roi-grid pooling详解

一、前言 PVRCNN是2019年12月发布的一篇3d目标检测的文章，代码已经在2021年4月开源。传统的目标检测网络一般是基于 3d voxel 或者基于 pointnet 的方…

人工智能 2023年7月10日
0078
OpenCV 人脸检测-Haar Cascade 哈尔级联（1）

目标：确定图片中人脸的位置，并画出矩形框。 1.核心原理（1 ）使用Haar -like 特征做检测注意：特征值为白色矩形像素和减去黑色矩形像素和（2 ）Integral I…

人工智能 2023年7月20日
0056
由陌生到认识——微积分

你好，微积分，希望可以认识你… 呃！同学，你好，你想认识我，得先认识导数和积分，我其实是导数和积分的合体。嗯！好吧！那我先了解一下什么是导数吧！导数是用来分析变化的…

人工智能 2023年6月22日
0055
pandas的简单使用（查询）

pandas的简单使用（查询） head() 和 tail() 函数 loc 函数 * 双索引的loc使用使用演示 iloc 函数条件查询 * 简单逻辑查询模糊查询 &#82…

人工智能 2023年6月11日
0076
Tensorflow学习之tf.layers.dense()

tf.layers.dense() 首先，TensorFlow中封装了全连接层函数 tf.layers.dense()，方便了开发者自己手动构造权重矩阵W W W和偏移矩阵 b b…

人工智能 2023年5月23日
00108
MATLAB图像分割——标记分水岭分割算法

文章目录 1.基本步骤 2.具体实现 * 1.读取图像并求其边界 2.直接使用梯度模值进行分水岭算法 3.分别对前景和背景进行标记 4.进行分水岭变换并显示。 1.基本步骤 ➊读取…

人工智能 2023年6月22日
0085
如何计算 R 中 F 统计量的 P 值

F 检验产生F 统计量。要查找与 R 中的 F 统计量关联的p 值，可以使用以下命令： pf(fstat, df1, df2, lower.tail = FALSE) fstat …

人工智能 2023年6月16日
0081
【MySQL功法】第5话 · SQL单表查询

🍺 写在前面闲话不多说，最近开始写关于数据分析的基础知识，未来对于数据分析的路线规划也在逐步计划中，但是有关【数据库】这类内容肯定是不可缺少的基础知识储备，所以对数据分析有兴趣…

人工智能 2023年7月16日
0061
如何在Vscode连接远程服务器时做可视化——Vscode插件Python Image Preview介绍

Intro 最近用vscode连接远程服务器在做attention可视化时遇到了一些困难，但偶然发现一个好用的插件可以在调试中显示实验中需要观察的图像。这个插件支持numpy pi…

人工智能 2023年6月4日
00124
web网页设计期末课程大作业：漫画网站设计——我的英雄（5页）学生个人单页面网页作业学生网页设计成品静态HTML网页单页制作

HTML实例网页代码, 本实例适合于初学HTML的同学。该实例里面有设置了css的样式设置，有div的样式格局，这个实例比较全面，有助于同学的学习,本文将介绍如何通过从头开始设计个…

人工智能 2023年6月26日
0088

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

Pandas知识点-详解聚合函数agg

Pandas知识点-详解聚合函数agg

大家都在看