python–pandas分组聚合

2023年8月8日上午8:01 • Python • 阅读 36

分组聚合是数据处理中常见的场景，在pandas中用groupby方法实现分组操作，用agg方法实现聚合操作。

python3.9
win10 64bit
pandas==1.2.1

groupby方法是pandas中的分组方法，对数据框采用 groupby方法后，返回的是 DataFrameGroupBy对象，一般分组操作后会进行聚合操作。

import pandas as pd
import numpy as np
pd.set_option('display.notebook_repr_html',False)

df = pd.DataFrame({'A': [1, 1, 2, 2],'B': [1, 2, 3, 4],'C':[6,8,1,9]})
df

对数据框按 A列进行分组，产生分组数据框。分组数据框是可迭代对象，可以进行循环遍历，可以看出在循环中，每个元素的类型是元组，
元组的第一个元素是分组值，第二个元素是对应的分组数据框。


g_df=df.groupby('A')

type(g_df)

pandas.core.groupby.generic.DataFrameGroupBy


for i in g_df:
    print(i,type(i),end='\n\n')

(1,    A  B  C
0  1  1  6
1  1  2  8) <class 'tuple'>

(2,    A  B  C
2  2  3  1
3  2  4  9) <class 'tuple'>
</class></class>

可以对分组后的数据框直接使用聚合方法 agg，对分组数据框的每一列计算统计函数值。


df.groupby('A').agg('sum')

可以根据数据框外的序列数据对数据框进行分组，需要注意 序列长度需要与数据框行数相同。


label=['a','a','b','b']

df.groupby(label).agg('sum')

   A  B   C
a  2  3  14
b  4  7  10

可以根据数据框的多列对数据框进行分组。


df = pd.DataFrame({'A': [1, 1, 2, 2],'B': [3, 4, 3, 3],'C':[6,8,1,9]})
df

根据 A, B列进行分组，然后求和。


df.groupby(['A','B']).agg('sum')

可以根据索引对数据框进行分组，需要设置 level参数。


df = pd.DataFrame({'A': [1, 1, 2, 2],'B': [3, 4, 3, 3],'C':[6,8,1,9]},index=['a','a','b','b'])
df

数据框只有一层索引，设置参数 level=0。


df.groupby(level=0).agg('sum')

   A  B   C
a  2  7  14
b  4  6  10

当数据框索引有多层时，也可以根据需求设置 level参数，完成分组聚合。


mi=pd.MultiIndex.from_arrays([[1,1,2,2],[3,4,3,3]],names=['id1','id2'])
df=pd.DataFrame(dict(value=[4,7,2,9]),index=mi)
df

         value
id1 id2
1   3        4
    4        7
2   3        2
    3        9

设置 level参数，如需要根据第一层索引，即 id1进行分组，可以设置 level=0或 level='id1'完成分组聚合。


df.groupby(level=0).agg('sum')


df.groupby(level='id1').agg('sum')

分组后一般会进行聚合操作，用 agg方法进行聚合。


df = pd.DataFrame({'A': [1, 1, 2, 2],'B': [3, 4, 3, 3],'C':[6,8,1,9],'D':[2,5,4,8]})
df

   A  B  C  D
0  1  3  6  2
1  1  4  8  5
2  2  3  1  4
3  2  3  9  8

对分组后数据框使用单个函数进行聚合，单个聚合函数会对每列进行计算，然后合并返回。聚合函数以字符串的形式传入。


df.groupby('A').agg('sum')

   B   C   D
A
1  7  14   7
2  6  10  12

可以对分组后的数据指定列进行分组聚合。需要注意 子列需要用[]包裹。


df.groupby('A')[['B','C']].agg('sum')

聚合函数也可以传入自定义的匿名函数。


df.groupby('A').agg(lambda x:sum(x))

   B   C   D
A
1  7  14   7
2  6  10  12

聚合函数可以是多个函数。聚合时，多个聚合函数会对每列进行计算，然后合并返回。聚合函数以列表的形式传入。


df.groupby('A').agg(['sum','mean'])

    B        C        D
  sum mean sum mean sum mean
A
1   7  3.5  14    7   7  3.5
2   6  3.0  10    5  12  6.0

聚合返回后的数据列名有两层索引，第一层是聚合的列名，第二层是使用的聚合函数名。如果需要对返回的聚合函数名重命名，
需要在传参时，传入元组，第一个元素为聚合函数名，第二个元素为聚合函数。


df.groupby('A').agg([('SUM','sum'),('MEAN','mean')])

    B        C        D
  SUM MEAN SUM MEAN SUM MEAN
A
1   7  3.5  14    7   7  3.5
2   6  3.0  10    5  12  6.0

同样，也可以传入匿名函数。


df.groupby('A').agg([('SUM','sum'),('MAX',lambda x:max(x))])

    B       C       D
  SUM MAX SUM MAX SUM MAX
A
1   7   4  14   8   7   5
2   6   3  10   9  12   8

如果需要对不同的列进行不同的聚合计算，则需要传入字典的形式。


df.groupby('A').agg({'B':['sum','mean'],'C':'mean'})

可以重命名聚合后的列名，注意 只能对一列传入一个聚合函数时有效。


df.groupby('A').agg(B_sum=('B','sum'),C_mean=('C','mean'))

   B_sum  C_mean
A
1      7       7
2      6       5

Original: https://blog.csdn.net/jhr112/article/details/115251345
Author: FTDdata
Title: python–pandas分组聚合

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/741878/

转载文章受原作者版权保护。转载请注明原作者出处！

python

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

python3使用allure生成测试报告（pytest）(第二部分-Allure测试报告生成、查看)

举例说明，可以跟着操作一遍1、操作示例说明1)pycharm下新建一个test_alluredemo.py的文件2)进入官网:https://docs.qameta.io/allu…

Python 2023年9月11日
0066
强化学习笔记：策略评估–基于numpy的贝尔曼方程数值求解

目录 1. 前言 2. 方程组构建 2.1 策略的表示 2.2 动力函数p的表示 2.3 向量b的表示 2.4 矩阵A的表示 3. 求解前言在上一篇强化学习笔记：策略评估&#8…

Python 2023年8月29日
0058
python虚拟环境的管家—Anaconda prompt(Anaconda3)

1.创建虚拟环境 conda create –name yourEnv python=3.6 –name：也可以缩写为【-n】 yourEnv：是新创建的虚拟环境的名字，创建…

Python 2023年5月23日
0073
Pytest + Allure 测试报告定制

文章目录一、测试模块定制-feature 二、测试功能定制- stroy 三、测试步骤定制-step 四、测试描述定制五、严重级别定制六、 Issue和TestCase定制…

Python 2023年9月11日
0088
从零开始完成YOLOv5目标识别（七）一种完成目标计数的简单方法

往期文章：从零开始完成YOLOv5目标识别（六）用接续训练完成大规模数据集训练（以FLIR为例）从零开始完成YOLOv5目标识别（五）一种扩充数据集的方式从零开始…

Python 2023年10月27日
0062
【.NET 6+Loki+Grafana】实现轻量级日志可视化服务功能

前言：日志功能是几乎所有程序或系统都必备的一个功能。该文章通过使用Loki+Grafana来实现日志记录与可视化查询，欢迎围观。有关环境：操作系统：WIN 10 .NET环境：…

Python 2023年10月19日
0043
油猴插件安装以及好用的脚本推荐包含电脑版本和手机版本

📢欢迎点赞👍收藏⭐留言📝如有错误敬请指正！包含电脑版本和手机版本（目录前8是电脑版第9是手机版本）文章目录 * – 📢欢迎点赞👍收藏⭐留言📝如有错误敬请指正！ …

Python 2023年10月10日
0093
Flask框架——MongoEngine使用MongoDB数据库

目录 MongoEngine 安装配置映射文档添加数据添加单条数据添加多条数据查询数据修改数据删除数据上篇文章我们学习了Flask框架——Bootstrap-Fl…

Python 2023年8月11日
0056
Python-Scrapy框架的概念基础

个人笔记，如有侵权，联系必删。Scrapy是一个基于Python的web爬虫框架，用于爬取web站点，并从中提取结构化的数据。一：为什么用Scrapy，优势是什么？容易构建大规模…

Python 2023年10月6日
0033
python df 合并_python中pandas.Dataframe合并的方法有哪些？

小编介绍过pandas的连接函数concat()函数使用方法，concat()函数是专门服务于pandas.Dataframe合并使用的，那pandas.Dataframe拼接方法…

Python 2023年8月6日
0044
Flask+mysql 实现增删改查接口开发+测试（图文教程附源码）

目录一、前言二、环境准备 2.1 安装python 2.2 安装mysql 三、工具准备 3.1 安装pycharm 3.3 安装postman 四、mysql数据库准备 4….

Python 2023年11月8日
0053
Flask+阿里云ECS+Nginx 搭建后台服务器域名解析+响应简单http+转发访问https请求

Flask部分一、新建Flask工程（系统学习flask开发可到2022版-零基础玩转Python Flask框架-学完可就业_哔哩哔哩_bilibili） 1，打开pycha…

Python 2023年8月10日
0081
MySQL、索引优化&参数优化

1.对查询进行优化应尽量避免全表扫描，首先应考虑在 where 及 order by 涉及的列上建立索引。 2.应尽量避免在 where 子句中对字段进行 null 值判断，否…

Python 2023年6月10日
0072
Anaconda和pycharm

虚拟环境介绍在介绍anaconda和pycharm之前先介绍一下虚拟环境是个什么样的东西。人生活在地球上是需要一定的环境条件的，只有环境适宜居住，人类才能够正常生活。虚拟环境…

Python 2023年8月2日
0053
pandas 格式转换

%% import numpy as np import pandas as pd %% 1.一列转为多列，str.split，已确定拆分结果的列数 df = pd.read_ex…

Python 2023年8月7日
0037
Django设置跨域访问

Django设置跨域访问 pip install django-cors-headers (2) settings.py 配置如下 INSTALLED_APPS = [ # ‘dj…

Python 2023年6月11日
0065

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

python–pandas分组聚合

大家都在看