python DataFrame数据分组统计groupby()函数

2023年7月2日下午9:14 • 人工智能 • 阅读 56

groupby()函数

在python的DataFrame中对数据进行分组统计主要使用groupby()函数。

ʚʕ̯•͡˔•̯᷅ʔɞ 个人简介
🍹 欢迎各路大佬来到小啾主页指点☀️
✨ 发现我：博主作品目前主要涉猎python领域各大方向及常见问题
✨ 访问我：博客主页：云雀编程小窝 🌹꧔ꦿ
🌹꧔ꦿ 支持我：点赞 + 关注 + 收藏✨

☀️ 感谢大家的支持：一起加油！共同进步！ 🍹

文章目录

groupby()函数
1. groupby基本用法
*
1.1 一级分类_分组求和
1.2 二级分类_分组求和
1.3 对DataFrameGroupBy对象列名索引（对指定列统计计算）
2. 对分组数据进行迭代
*
2.1 对一级分类的DataFrameGroupBy对象进行遍历
2.2 对二级分类的DataFrameGroupBy对象进行遍历
3. agg()函数
*
3.1一般写法_对目标数据使用同一聚合函数
3.2 对不同列使用不同聚合函数
3.3 自定义函数写法
4. 通过字典和 Series 对象进行分组统计
*
4.1通过一个字典
4.2通过一个Series

; 1. groupby基本用法

1.1 一级分类_分组求和

import pandas as pd
data = [['a', 'A', 109], ['b', 'B', 112], ['c', 'A', 125], ['d', 'C', 120],
        ['e', 'C', 126], ['f', 'B', 133], ['g', 'A', 124], ['h', 'B', 134],
        ['i', 'C', 117], ['j', 'C', 128]]
index = [0, 1, 2, 3, 4, 5, 6, 7, 8, 9]
columns = ['name', 'class', 'num']
df = pd.DataFrame(data=data, index=index, columns=columns)
print(df)
print("=================================================")
df1 = df.groupby('class').sum()
print(df1)

1.2 二级分类_分组求和

给groupby()传入一个列表，列表中的元素为分类字段，从左到右分类级别增大。(一级分类、二级分类…)

import pandas as pd
data = [['a', 'A', '1等', 109], ['b', 'B', '1等', 112], ['c', 'A', '1等', 125], ['d', 'B', '2等', 120],
        ['e', 'B', '1等', 126], ['f', 'B', '2等', 133], ['g', 'A', '2等', 124], ['h', 'B', '1等', 134],
        ['i', 'A', '2等', 117], ['j', 'A', '2等', 128], ['h', 'A', '1等', 130], ['i', 'B', '2等', 122]]
index = [0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11]
columns = ['name', 'class_1', 'class_2', 'num']
df = pd.DataFrame(data=data, index=index, columns=columns)
print(df)
print("=================================================")
df1 = df.groupby(['class_1', 'class_2']).sum()
print(df1)

1.3 对DataFrameGroupBy对象列名索引（对指定列统计计算）

其中，df.groupby(‘class_1’)得到一个DataFrameGroupBy对象，对该对象可以使用列名进行索引，以对指定的列进行统计。
如：df.groupby(‘class_1’)[‘num’].sum()

import pandas as pd
data = [['a', 'A', '1等', 109], ['b', 'B', '1等', 112], ['c', 'A', '1等', 125], ['d', 'B', '2等', 120],
        ['e', 'B', '1等', 126], ['f', 'B', '2等', 133], ['g', 'A', '2等', 124], ['h', 'B', '1等', 134],
        ['i', 'A', '2等', 117], ['j', 'A', '2等', 128], ['h', 'A', '1等', 130], ['i', 'B', '2等', 122]]
index = [0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11]
columns = ['name', 'class_1', 'class_2', 'num']
df = pd.DataFrame(data=data, index=index, columns=columns)
print(df)
print("=================================================")
df1 = df.groupby('class_1')['num'].sum()
print(df1)

代码运行结果同上。

对分组数据进行迭代

2.1 对一级分类的DataFrameGroupBy对象进行遍历

for name, group in DataFrameGroupBy_object

其中，name指分类的类名，group指该类的所有数据。

import pandas as pd
data = [['a', 'A', '1等', 109], ['b', 'C', '1等', 112], ['c', 'A', '1等', 125], ['d', 'B', '2等', 120],
        ['e', 'B', '1等', 126], ['f', 'B', '2等', 133], ['g', 'C', '2等', 124], ['h', 'A', '1等', 134],
        ['i', 'C', '2等', 117], ['j', 'A', '2等', 128], ['h', 'B', '1等', 130], ['i', 'C', '2等', 122]]
index = [0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11]
columns = ['name', 'class_1', 'class_2', 'num']
df = pd.DataFrame(data=data, index=index, columns=columns)
print(df)
print("===============================")

df1 = df[['name', 'class_1', 'num']]
for name, group in df1.groupby('class_1'):
        print(name)
        print("=============================")
        print(group)
        print("==================================================")

2.2 对二级分类的DataFrameGroupBy对象进行遍历

对二级分类的DataFrameGroupBy对象进行遍历，
以 for (key1, key2), group in df.groupby([‘class_1’, ‘class_2’]) 为例
不同于一级分类的是， (key1, key2)是一个由多级类别组成的元组，而group表示该多级分类类别下的数据。

import pandas as pd
data = [['a', 'A', '1等', 109], ['b', 'C', '1等', 112], ['c', 'A', '1等', 125], ['d', 'B', '2等', 120],
        ['e', 'B', '1等', 126], ['f', 'B', '2等', 133], ['g', 'C', '2等', 124], ['h', 'A', '1等', 134],
        ['i', 'C', '2等', 117], ['j', 'A', '2等', 128], ['h', 'B', '1等', 130], ['i', 'C', '2等', 122]]
index = [0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11]
columns = ['name', 'class_1', 'class_2', 'num']
df = pd.DataFrame(data=data, index=index, columns=columns)
print(df)
print("===============================")

for (key1, key2), group in df.groupby(['class_1', 'class_2']):
        print(key1, key2)
        print("=============================")
        print(group)
        print("==================================================")

程序运行结果如下：

(部分)

agg()函数

使用groupby()函数和agg()函数实现分组聚合操作运算。

3.1一般写法_对目标数据使用同一聚合函数

以分组求均值、求和为例

给agg()传入一个列表

df1.groupby([‘class_1’, ‘class_2’]).agg([‘mean’, ‘sum’])

import pandas as pd
data = [['a', 'A', '1等', 109, 144], ['b', 'C', '1等', 112, 132], ['c', 'A', '1等', 125, 137], ['d', 'B', '2等', 120, 121],
        ['e', 'B', '1等', 126, 136], ['f', 'B', '2等', 133, 127], ['g', 'C', '2等', 124, 126], ['h', 'A', '1等', 134, 125],
        ['i', 'C', '2等', 117, 125], ['j', 'A', '2等', 128, 133], ['h', 'B', '1等', 130, 122], ['i', 'C', '2等', 122, 111]]
index = [0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11]
columns = ['name', 'class_1', 'class_2', 'num1', 'num2']
df = pd.DataFrame(data=data, index=index, columns=columns)
print(df)
print("===============================")
df1 = df[['class_1', 'class_2', 'num1', 'num2']]
print(df1.groupby(['class_1', 'class_2']).agg(['mean', 'sum']))

3.2 对不同列使用不同聚合函数

给agg()方法传入一个字典

import pandas as pd
data = [['a', 'A', '1等', 109, 144], ['b', 'C', '1等', 112, 132], ['c', 'A', '1等', 125, 137], ['d', 'B', '2等', 120, 121],
        ['e', 'B', '1等', 126, 136], ['f', 'B', '2等', 133, 127], ['g', 'C', '2等', 124, 126], ['h', 'A', '1等', 134, 125],
        ['i', 'C', '2等', 117, 125], ['j', 'A', '2等', 128, 133], ['h', 'B', '1等', 130, 122], ['i', 'C', '2等', 122, 111]]
index = [0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11]
columns = ['name', 'class_1', 'class_2', 'num1', 'num2']
df = pd.DataFrame(data=data, index=index, columns=columns)
print(df)
print("===============================")
df1 = df[['class_1', 'num1', 'num2']]
print(df1.groupby('class_1').agg({'num1': ['mean', 'sum'], 'num2': ['sum']}))

3.3 自定义函数写法

也可以自定义一个函数（以名为max1为例）传入agg()中。

import pandas as pd
data = [['a', 'A', '1等', 109, 144], ['b', 'C', '1等', 112, 132], ['c', 'A', '1等', 125, 137], ['d', 'B', '2等', 120, 121],
        ['e', 'B', '1等', 126, 136], ['f', 'B', '2等', 133, 127], ['g', 'C', '2等', 124, 126], ['h', 'A', '1等', 134, 125],
        ['i', 'C', '2等', 117, 125], ['j', 'A', '2等', 128, 133], ['h', 'B', '1等', 130, 122], ['i', 'C', '2等', 122, 111]]
index = [0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11]
columns = ['name', 'class_1', 'class_2', 'num1', 'num2']
df = pd.DataFrame(data=data, index=index, columns=columns)
print(df)
print("===============================")

max1 = lambda x: x.value_counts(dropna=False).index[0]
max1.__name__ = "类别数量最多"
df1 = df.agg({'class_1': [max1],
        'num1': ['sum', 'mean'],
        'num2': ['sum', 'mean']})
print(df1)

通过字典和 Series 对象进行分组统计

groupy()不仅仅可以传入单个列，或多个列组成的列表，
也可以传入一个字典或者一个Series来实现分组。

4.1通过一个字典

import pandas as pd
data = [['A', 10000, 20121, 14521, 20, 23, 4, 5000],
        ['B', 12000, 12541, 11220, 14, 25, 5, 6000],
        ['C', 21420, 26452, 34215, 25, 24, 4, 5266],
        ['D', 21025, 23155, 31251, 23, 26, 6, 6452],
        ['E', 30021, 23512, 21452, 30, 27, 5, 7525],
        ['F', 32152, 30214, 26321, 32, 30, 7, 6952]]
columns = ['公司', 'a产品产量', 'b产品产量', 'c产品产量', '搬运工数量', '推销员数量', '经理数量', '平均工资']
pd.set_option('display.unicode.east_asian_width', True)
df = pd.DataFrame(data=data, columns=columns)
df = df.set_index(['公司'])
print(df)
print("===============================")

mapping = {
    'a产品产量': '产品产量', 'b产品产量': '产品产量',
    'c产品产量': '产品产量', '搬运工数量': '人员数量',
    '推销员数量': '人员数量', '经理数量': '人员数量',
    '平均工资': '平均工资'
}

df1 = df.groupby(mapping, axis=1).sum()
print(df1)

程序运行结果：

4.2通过一个Series

import pandas as pd
data = [['A', 10000, 20121, 14521, 20, 23, 4, 5000],
        ['B', 12000, 12541, 11220, 14, 25, 5, 6000],
        ['C', 21420, 26452, 34215, 25, 24, 4, 5266],
        ['D', 21025, 23155, 31251, 23, 26, 6, 6452],
        ['E', 30021, 23512, 21452, 30, 27, 5, 7525],
        ['F', 32152, 30214, 26321, 32, 30, 7, 6952]]
columns = ['公司', 'a产品产量', 'b产品产量', 'c产品产量', '搬运工数量', '推销员数量', '经理数量', '平均工资']
pd.set_option('display.unicode.east_asian_width', True)
df = pd.DataFrame(data=data, columns=columns)
df = df.set_index(['公司'])
print(df)
print("===============================")

data = {
    'a产品产量': '产品产量', 'b产品产量': '产品产量',
    'c产品产量': '产品产量', '搬运工数量': '人员数量',
    '推销员数量': '人员数量', '经理数量': '人员数量',
    '平均工资': '平均工资'
}
s1 = pd.Series(data)
df1 = df.groupby(s1, axis=1).sum()
print(df1)

程序运行结果：

参考资源： python数据分析从入门到精通明日科技编著清华大学出版社

Original: https://blog.csdn.net/weixin_48964486/article/details/123331058
Author: 侯小啾
Title: python DataFrame数据分组统计groupby()函数

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/666230/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

pycharm安装第三方库：Try to run this command from the system terminal. Make sure that you use the问题，亲测已解决

pycharm安装第三方库：报错Try to run this command from the system terminal. Make sure that you use t…

人工智能 2023年7月3日
0072
目标检测—锚框

提示：本文是参考李沐老师目标检测这一章，对该章边界框和锚框代码的整体梳理，具体资料连接会在文章中给出。且全部实验代码是在kaggle平台上验证过滴。文章目录前言一、边界框二…

人工智能 2023年7月23日
0092
OPENCV入门第一步——安装编译opencv（以及opencv_contrib）

OPENCV入门第一步——ubuntu安装编译opencv（以及opencv_contrib）本文使用ubuntu18.04系统，成功编译安装了opencv-4.4.0以及ope…

人工智能 2023年7月20日
00123
python 基于残差ResNeXt与UNet的优化网络

基于残差ResNeXt与UNet的优化网络 * – 一、环境配置 – 二、目录说明 – 三、训练 – + 3.1 模型训练 + 3….

人工智能 2023年5月23日
00117
用Python画出圣诞树，瞧瞧我这简易版的吧

前言嗨嗨，大家好，我是小圆今天来实现一下用python画出圣诞树代码模块源码.点击领取即可 import turtle as t from turtle import …

人工智能 2023年7月31日
0057
用Python实现地理信息出图(含比例尺、指北针、图例)

哈喽、哈喽大家&#…

人工智能 2023年7月27日
0062
【opencv】基于opencv实现人脸识别，从环境搭建到代码实现（超详细教程）

前言目标：让计算机通过训练做到认识我或者检测出视频中的人是谁本文是一个学习笔记，记录一下自己的实现过程、在实现过程中遇到的问题以及个人对知识的理解。一.环境配置 1.软件安装…

人工智能 2023年6月17日
0091
全球名校AI课程库（44）| 慕尼黑工大 · 计算机视觉深度学习进阶课『Advanced Deep Learning for Computer Vision』

🏆 课程学习中心; | 🚧 CV课程合辑 | 🌍 课程主页 | 📺 中英字幕视频 | 🚀 项目代码解析课程介绍 ADL4CV，全称是 Advanced Deep Learning…

人工智能 2023年6月24日
0087
KDD 2022 | 阿里巴巴获数据科学顶会最佳论文奖

全球数据科学领域顶级会议KDD 2022大奖公布，阿里巴巴达摩院团队斩获应用科学方向”最佳论文奖”，这是中国企业首次获得该重磅奖项。 KDD（ACM SI…

人工智能 2023年7月13日
00122
10.1 意境级讲解关系抽取

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、C币套餐、付费专栏及课程。 Original: https:…

人工智能 2023年6月1日
0091
什么是多项式回归

什么是多项式回归？多项式回归是一种用于拟合非线性数据的机器学习方法。它通过向线性回归模型添加多项式特征，将原始特征的高次幂作为新特征来拟合数据。这样，我们可以在线性模型中引入非线…

人工智能 2023年12月31日
0043
机器学习随笔（1）——pandas.DataFrame和数据清洗

1. pandas.DataFrame 2. 数据清洗当我想对机器学习的基础进一步了解的时候，才发现这些基础都还没打牢，而且许多用法记不太清，特此笔记来回顾一下。以下是官方参考…

人工智能 2023年7月8日
0075
深度学习教你重建赵丽颖的三维人脸

作者 | 李秋键出品 | AI科技大本营（ID:rgznai100）近年来，三维人脸重建成为计算机视觉、图像识别等研究领域中的热点问题。三维人脸重建技术分为基于不同视角的多幅图…

人工智能 2023年5月26日
0074
python3.7安装Tensorflow

提示：写完文章后，目录可以自动生成，如何生成右侧的帮助文档。 [En] Tip: after the article is written, the directory can b…

人工智能 2023年5月24日
0074
解析：IEEE批准首个联邦机器学习框架标准

最近1个多月内出现了一个可能对后续人工智能行业有着深远影响的事件，现在这件事件还没有发酵起来，是因为联邦学习还没有真正步入企业生产行列。这个事件就是IEEE批准了国际首个联邦机器学…

人工智能 2023年6月1日
0084
YOLOv5超详细的入门级教程（训练篇）（一）——训练自制数据集（识别鱼类）

Pytorch-YOLOv5 数据集标注数据集制作修改配置文件 * 修改coco.yaml文件修改model.yaml文件训练train.py 出现的问题测试detect…

人工智能 2023年7月23日
00107

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31