【pandas groupby()函数使用及参数详解】

2023年7月5日上午8:00 • 人工智能 • 阅读 92

1.1 定义

pandas中的 groupby函数是先将df按照某个字段进行拆分，将相同属性分为一组；然后对拆分后的各组执行相应的转换操作；最后输出汇总转换后的各组结果

DataFrame.groupby(by=None,
                axis=0,
                level=None,
                as_index=True,
                sort=True,
                group_keys=True,
                squeeze=NoDefault.no_default,
                observed=False,
                dropna=True)

1.2 参数详解

by：用于确定 groupby 的组。如果 by 是一个函数，它会在对象索引的每个值上调用。如果传递了 dict 或 Series，则 Series 或 dict VALUES 将用于确定组（Series 的值首先对齐；参见 .align()方法）。如果传递了长度等于所选轴的列表或 ndarray，则按原样使用这些值来确定组。一个标签或标签列表可以通过 self 中的列传递给 group。请注意，元组被解释为（单个）键。
axis：沿行 (0) 或列 (1) 拆分。
level：如果轴是MultiIndex(层次化)，则按一个或多个特定级别进行分组。
as_index：对于聚合输出，返回具有组标签作为索引的对象。仅与DataFrame输入相关。 as index=False是有效的sql风格的分组输出。
sort：对组键进行 排序。关闭此功能可获得更好的性能。请注意，这不会影响每组内的观察顺序。 Groupby 保留每个组内的行顺序。
group_keys：当调用 apply时，将组键添加到 index以识别片段。
squeeze：如果可能，降低返回类型的维数，否则返回一致的类型。
observed：这仅适用于任何 groupers 是分类的。如果为真：仅显示分类分组的 观察值。如果为 False：显示分类分组的 所有值。
dropna：如果为 True，并且组键包含 NA值，则 NA 值连同行/列将被删除。如果为 False， NA值也将被视为组中的键。

def group_by():
    data = {'name': ['apolo', 'apolo', 'apolo', 'adm', 'adm', 'adm', 'bolon', 'bolon', 'bolon',
                  'ali', 'ali', 'ali', 'cathy', 'cathy', 'cathy', 'jack', 'jack', 'jack'],
         'subjects': ['math', 'english', 'chinese', 'math', 'english', 'chinese', 'math', 'english', 'chinese',
                      'math', 'english', 'chinese', 'math', 'english', 'chinese', 'math', 'english', 'chinese'],
         'grades' : [89, 78, 84, 89, 83, 85, 77, 88, 79, 89, 86, 83, 95, 90, 94, 78, 70, 80]
        }
    df = pd.DataFrame(data)
    print(df)

输出：df记录了六名学生在math，English和Chinese上的考试成绩

     name subjects  grades
0   apolo     math      89
1   apolo  english      78
2   apolo  chinese      84
3     adm     math      89
4     adm  english      83
5     adm  chinese      85
6   bolon     math      77
7   bolon  english      88
8   bolon  chinese      79
9     ali     math      89
10    ali  english      86
11    ali  chinese      83
12  cathy     math      95
13  cathy  english      90
14  cathy  chinese      94
15   jack     math      78
16   jack  english      70
17   jack  chinese      80

进行分组

print(df.groupby('name'))

这里返回的结果是一个 DataFrameGroupBy对象，后续的操作都是对这个 DataFrameGroupBy对象进行

<pandas.core.groupby.generic.DataFrameGroupBy object at 0x000002DB778B6320>

2.1 基于groupby()常用的操作函数

在得到DataFrameGroupBy对象后，我们就可以根据需要进行相应的转换操作。

可以在DataFrameGroupBy对象后直接加 mean(), sum(), min(), max()之类的聚合函数进行相应的操作

如求平均值

df.groupby('name').mean()

输出：可以看到输出了每个学生的平均成绩，结果是一个 DataFrame，列索引是 grades，行索引是学生的名字， name是行索引的名字。

          grades
name
adm    85.666667
ali    86.000000
apolo  83.666667
bolon  81.333333
cathy  93.000000
jack   76.000000

大家可以再自己试一试 sum(), min(), max()方法

agg()的功能更加强大，除了可以向agg()函数中传入聚合函数外，也常用列表、字典等形式作为参数。

传入聚合函数：求平均值

df.groupby('name').agg('mean')

输出：和 直接加聚合函数的结果是一样的，但要注意的是，传入的是字符串，并不是真正的聚合函数。

         grades
name
adm     85.666667
ali     86.000000
apolo   83.666667
bolon   81.333333
cathy   93.000000
jack    76.000000

传入列表：求每个学生的平均成绩和最低成绩

df.groupby('name').agg(['mean', 'min'])

输出：结果是一个多索引的 DataFrame， df.groupby('name').agg(['mean', 'min'])['grade']则是一个普通的 DataFrame

            grades
            mean    min
name
adm     85.666667   83
ali     86.000000   83
apolo   83.666667   78
bolon   81.333333   77
cathy   93.000000   90
jack    76.000000   70

apply()可以传入自定义的面向分组的函数。

求每个学生的数学平均成绩与英语平均成绩之差：

自定义函数 lambda表达式
df.groupby('name').apply(lambda x:x[x['subjects'] == 'math']['grades'].mean() - x[x['subjects'] == 'english']['grades'].mean())

输出：输出结果是一个Series

name
adm       6.0
ali       3.0
apolo    11.0
bolon   -11.0
cathy     5.0
jack      8.0
dtype: float64

transform调用函数在每个分组上产生一个与 原df相同索引的DataFrame，整体返回与原来对象拥有相同索引且已填充了转换后的值的DataFrame，相当于就是给原来的Dataframe 添加了一列。

transform与 agg和 apply的区别相当于SQL中 窗口函数和 分组聚合的区别： transform并不对数据进行聚合输出，而只是对每一行记录提供了相应聚合结果；而后两者则是聚合后的分组输出。

df.groupby('name').transform('mean')

输出：结果是每个学生的平均成绩

     grades
0   83.666667
1   83.666667
2   83.666667
3   85.666667
4   85.666667
5   85.666667
6   81.333333
7   81.333333
8   81.333333
9   86.000000
10  86.000000
11  86.000000
12  93.000000
13  93.000000
14  93.000000
15  76.000000
16  76.000000
17  76.000000

Original: https://blog.csdn.net/qq_45186086/article/details/125237895
Author: 一杯冰糖
Title: 【pandas groupby()函数使用及参数详解】

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/671384/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

地理加权回归学习记录

地理加权回归GWR 白话空间统计二十四：地理加权回归（三）地理加权回归可以用来量化空间异质性。研究区域——利用每个要素的不同空间位置计算距离衰减函数——把每个要素的空间位置（一般…

人工智能 2023年6月17日
0089
上采样、下采样区别及作用

前言：真的一直忘记这两个概念，现在特地用自己的话来总结总结参考下采样–>> 76 76->38_38->19 _19 –>>缩小图像…

人工智能 2023年7月18日
00118
目标检测之YOLOX–Windows系统下的环境配置

YOLOX之Windows环境配置 Windows下的安装配置步骤从github上clone yolox项目到本地磁盘创建新的环境或者使用之前已经创建完成的环境，查看requi…

人工智能 2023年7月12日
0061
三行代码实现python链接数据库操作

[ Python_参考手册(第4版) 第一部分 _Python_语言第1章 _Python_简介 2 1.1 运行 _Python 2 1.2 变量和算术表达式 3 1.3 条件…

人工智能 2023年7月8日
0081
bert4keras加载BERT模型并获取文本字向量、句向量CLS

bert4keras加载BERT模型并获取文本字向量、句向量CLS 环境依赖 tensorflow2.3+ bert4keras 开源BERT模型下载 BERT模型https://…

人工智能 2023年5月23日
0077
r语言中残差与回归值的残差图_用R语言做回归分析_iris数据集/longley数据集

机器学习课程2 回归分析【题目1】使用R对内置鸢尾花数据集iris(在R提示符下输入iris回车可看到内容)进行回归分析，自行选择因变量和自变量，注意Species这个分类变量…

人工智能 2023年6月18日
00116
python error tokenizing data_python 问题杂烩

python 问题杂烩 python problem cookbook ParserError: Error tokenizing data. C error: Calling r…

人工智能 2023年7月8日
0076
Python数据分析教程01：jupyter的使用及numpy要点总结

1 什么是数据分析数据分析是把隐藏在一些看似杂乱无章的数据背后的信息提炼出来，总结出所研究对象的内在规律使得数据的价值最大化分析用产的消费行为制定促销活动的方案。制定促销时…

人工智能 2023年7月17日
0075
三维目标检测之OpenPCDet环境配置及demo测试

很久没写过关于环境配置的博客了，这次实在是因为，自己在是在OpenPCDet环境的配置上遇到坑了。一环扣一环，由于我的实验环境是ubuntu16.04，跟网上大多数教程环境不一样，…

人工智能 2023年6月17日
0089
Python基于Flask框架实现Websocket通信（待更新）

Websocket 和 Http WebSocket 是 HTML5 出的东西（协议），也就是说HTTP协议没有变化，或者说没关系，但HTTP是不支持持久连接的（长连接，循环连接的…

人工智能 2023年7月6日
00126
Python面向对象三大特征

🤵‍♂️ 个人主页: @Flyme awei 个主页👨‍💻 作者简介： Python领域新星创作者。📒 系列专栏：《在线编程-Python篇》🌐推荐一款 找&…

人工智能 2023年7月5日
0076
【YOLOV5-6.x中文注释版】整体项目代码全中文注释导航页面-By2022

现在YOLOV5已经更新到6.X版本，现在网上很多还停留在5.X的源码注释上，因此特开一贴传承开源精神！ 5.X版本的可以看其他大佬的帖子本文章主要从6.X版本出发，主要解决6….

人工智能 2023年7月21日
0049
蚁群算法求解TSP问题（Python实现）

算法简介蚁群系统(Ant System或Ant Colony System)是由意大利学者Dorigo、Maniezzo等人于20世纪90年代首先提出来的。他们在研究蚂蚁觅食的过…

人工智能 2023年6月25日
00123
苹果手机怎么发语音短信？

说到语音，我们最熟悉的是通过微信发语音，但微信发语音的前提是必须是朋友。 [En] When it comes to voice, what we are most familia…

人工智能 2023年5月27日
00223
CPU、GPU、NPU的区别

CPU、GPU、NPU的区别 CPU CPU（CentralProcessing Unit）中央处理器，是一块超大规模的集成电路，主要逻辑架构包括控制单元Control，运算单元A…

人工智能 2023年7月27日
00157
五种C程序计算阶乘方法 c语言实现1到n的阶乘1*2*3*…..*n的累乘计算，使用不同方法实现，五种计算阶乘的方法

题目：题目分析：首先要清楚阶乘定义，所谓 n 的阶乘，就是从 1 开始乘以比前一个数大 1 的数，一直乘到 n，用公式表示就是：1×2×3×4×…×(n-2)×(…

人工智能 2023年7月29日
0067

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

【pandas groupby()函数使用及参数详解】

1.1 定义

1.2 参数详解

2.1 基于groupby()常用的操作函数

大家都在看