pandas数据分析之分组聚合

2023年6月19日上午11:27 • 人工智能 • 阅读 75

在数据分析过程中，经常会需要根据某一列或多列把数据划分为不同的组别，然后再对其进行数据分析。本文将介绍pandas的数据分组及分组后的应用如对数据进行聚合、转换和过滤。

在关系型数据库中我们常用SQL的GROUP BY操作进行分组分析计算。在pandas中要完成数据的分组操作同样可用groupby()函数，然后再在划分出来的组（group）上应用一些统计函数，从而达到数据分析的目的，比如对分组数据进行聚合、转换或者过滤。这个过程主要包含以下三步： 拆分(split)-应用(apply)-合并(combine）
例如，DataFrame可以在列(axis=1)或行(axis=0)上进行分组(split)，然后将一个函数应用(apply)到各个分组并产生一个新值，最后所有这些函数的执行结果会被合并(combine)到最终的结果对象中。
一个简单的分组聚合的过程如下图所示：

我们来构造图中所示的DataFrame数据集，看看pandas的分组聚合是怎么做的。

import pandas as pd
import numpy as np
df=pd.DataFrame({'key':['A','B','C','A','B','C','A','B','C'],'data':[0,5,10,5,10,15,10,15,20]})
df

grouped=df.groupby(['key'])

for dtype,group in grouped:
    print(dtype)
grouped.sum()

通过对df的key进行用groupby()进行分组，这里可看到，将数据分成了A、B、C三组，然后对这三组分别应用sum()函数求和，再组合成最终的结果。
对于分组聚合一般来说实际上是分两步：一是创建分组对象进行分组，二是对分组进行相应处理如（对组应用聚合函数、对组进行转换、对组的数据进行过滤）。不过实际在具体写的时候可以通过链式调用一个语句就可以实现如：

df.groupby(['key']).sum()

一、创建分组对象进行分组

groupby可以把分组时指定的键（key）作为每组的组名。groupby对象支持迭代，可以遍历每个分组的具体数据。
如：


for name,group in grouped:
    print(name)
    print(group)

1、根据多列进行分组

groupby可以通过传入需要分组的参数实现对数据的分组，参数可以是单列，也可以是多列，多列以列表的方式传入。

grouped=df.groupby(['key1','key2'])

2、通过字典或Series进行分组

除数组以外，分组信息还可以其他形式存在。如可以定义字典或Series进行分组。

people=pd.DataFrame(np.random.randn(5,5),
                   columns=['a','b','c','d','e'],
                   index=['Joe','Steve','Wes','Jim','Bob'])
people
mapping={'a':'red','b':'red','c':'blue','d':'blue','e':'red'}
by_column=people.groupby(mapping,axis=1)

for group_name,group_data in by_column:
    print(group_name)
    print(group_data)

在字典中我们定义了 mapping={'a':'red','b':'red','c':'blue','d':'blue','e':'red'}#定义分组字典
a、b、e对应”red”，c、d对应”blue”所以将blue和red分成了两组。

应用sum()求和函数，可以看到分别对blue和red的分组进行了求和。
类似的，Series也是一样的，我们将map转换成Series，可以看到分组结果和map分组一样的。

3、通过函数进行分组

比起使用字典或Series,使用Python函数是一种更原生的方法定义分组映射，。任何被当做分组键的函数都会在各个索引值上被调用一次，其返回值就会被用作分组名称。
如上面的people数据集，将姓名索引的长度进行分组。

by_len=people.groupby(len)

可以看到将姓名长度相同的3分成一组，长度为5的数据分成了一组
更加通用的是可以自定义函数进行分组，如要将索引>5的和小于5的分别分组，可以自定义函数


df=pd.DataFrame({'key':['A','B','C','A','B','C','A','B','C'],
                 'data':[0,5,10,5,10,15,10,15,20]},
                index=[1,2,3,4,5,6,7,8,9])
df

def big5(x):
    result=0
    if x>5:
        result=1
    return result

by_big5=df.groupby(big5)

for group_name,group_data in by_big5:
    print(group_name)
    print(group_data)

二、对分组后的数据进行应用

前面通过分组将数据集根据条件分组后，可以对分组后的数据进行各种处理包括聚合、转换、过滤等操作。

1、对分组数据用聚合函数进行聚合

a) 使用pandas聚合函数

前面第一部分的例子中对数据分组后进行了sum()求和聚合操作，类似的聚合函数还有很多如：

函数名描述count分组中非NA值的数量sum非NA值的和mean非NA值的平均值median非NA值的中位数std, var标准差和方差min, max非NA的最小值，最大值prod非NA值的乘积first, last非NA值的第一个,最后一个

; b) 使用自定义聚合函数

pandas的groupby分组对象还可以用自定义的聚合函数可以通过groupby分组对象，将你自己的聚合函数，传入aggregate或agg方法即可

df=pd.DataFrame({'key':['A','B','C','A','B','C','A','B','C'],'data':[0,5,10,5,10,15,10,15,20]})
df

grouped=df.groupby(['key'])

for group_name,group_data in grouped:
    print(group_name)
    print(group_data)

def peak_to_peak(arr):
    return arr.max() - arr.min()

grouped.agg(peak_to_peak)

2、根据分组数据进行转换

根据分组数据进行数据转换或其他操作，可以在分组的基础上用apply函数进行数据的转换。
如数据集

df=pd.DataFrame({'key':['A','B','C','A','B','C','A','B','C'],
                 'data':[0,5,10,5,10,15,10,15,20]})
df
根据key分组
grouped=df.groupby(['key'])

for group_name,group_data in grouped:
    print(group_name)
    print(group_data)

现在我们要对data求和后小于25的分组数据都加1
那么我们可以定义函数，然后再对分数数据进行应用

def add1(df):
    if df[:]['data'].sum()<25:
        return df[:][['data']]+1
    else:
        return df[:][['data']]
grouped.apply(add1)

3、根据分组数据进行过滤

通过 filter() 函数可以实现数据的筛选，该函数根据定义的条件过滤数据并返回一个新的数据集。
如当我们要过滤掉分组后data求和小于25的数据


def filtersum25(x):
    if x['data'].sum()>25:
        return True
    else:
        return False
grouped.filter(filtersum25)

至此，本文通过实例介绍了pandas的数据分组及分组后的应用如对数据进行聚合、转换和过滤。数据的分组和聚合是数据分析中常用的分析手段，转换和过滤是数据处理中可用到的方法。

数据集及源代码见：https://github.com/xiejava1018/pandastest.git

作者博客：http://xiejava.ishareread.com/

Original: https://blog.csdn.net/fullbug/article/details/122892358
Author: xiejava1018
Title: pandas数据分析之分组聚合

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/638984/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

Dataset：机器学习中常用数据集下载链接集合之详细攻略

啊哦~你想找的内容离你而去了哦内容不存在，可能为如下原因导致： ① 内容还在审核中 ② 内容以前存在，但是由于不符合新的规定而被删除 ③ 内容地址错误 ④ 作者删除了内容。可…

人工智能 2023年6月15日
0057
数据可视化实战：数据处理

电影数据集处理数据拆分 * 数据的读取数据的分割行列的转换索引的重置列的替换缺失值填充分组计算数据去重条件排序新增一列数据拆分在电影数据集的数据可视化实战中…

人工智能 2023年7月14日
0061
2个自变量的埃尔米特多项式_线性回归一元线性回归、多元线性回归、多项式回归…

1.回归分析(Regression Analysis)：确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法。按涉及变量个数划分：一元回归分析、多元回归分析按自变量和因…

人工智能 2023年6月18日
0065
【数学建模常用模型】分类专题

这次介绍一下数模国赛常用的分类方法，以下这方法也是现在应用比较广泛的分类方法：K-近邻算法（k-Nearest Neighbors，KNN）和支持向量机（Support Vecto…

人工智能 2023年7月1日
0074
深度学习实战：基于CNN的猫狗图像识别

公众号：尤而小屋作者：Peter编辑：Peter 大家好，我是Peter~ 本文记录了第一个基于卷积神经网络在图像识别领域的应用：猫狗图像识别。主要内容包含：数据处理神经网络…

人工智能 2023年6月15日
0065
nnUnet肾脏肿瘤分割实战(KiTS19)

nnUnet肾脏肿瘤分割实战 nnunet项目官方地址 MIC-DKFZ/nnUNet 使用nnunet之前，建议先阅读两篇论文 nnU-Net: Self-adapting Fr…

人工智能 2023年7月6日
0083
三个参数对随机森林分类结果的影响（附代码）

使用手写数据集研究集成规模，树的最大深度以及特征数对随机森林分类结果的影响。代码在末尾。使用交叉验证，返回accuracy，折数为10 ; 1. 集成规模n_estimator…

人工智能 2023年7月3日
0073
Windows10创建Tensorflow-GPU环境（简单详细）

查看自己显卡支持的最高CUDA配置打开NVIDIA控制面板，找不到的话在搜索NVIDIA Control Panel。点击系统信息——组件，此处显示CUDA 11.5.125，这…

人工智能 2023年5月23日
0071
时间序列分析（3）| ARMA模型的拟合

本篇来介绍根据已有的时间序列数据来拟合ARMA模型。需要说明的是不同阶数的ARMA模型可能近似或完全等价，因此模型估计的结果也不是唯一的；筛选标准通常遵守简练性原则。 1 arim…

人工智能 2023年6月11日
0073
Global Tracking Transformers (多目标跟踪2022CVPR)

Global Tracking Transformers 论文地址：https://arxiv.org/abs/2203.13250代码： https://github.com/x…

人工智能 2023年7月10日
0093
数据导入与预处理-课程总结-01~03章

数据导入与预处理-课程总结-01~03章第1章数据预处理概述 * 1.1 基本概念 – 1.1.1 大数据项目开发流程 1.1.2 什么是数据预处理 1.1.3 数…

人工智能 2023年6月29日
0064
数据预处理和特征选择

背景介绍结合网上一些相关资料，我们整理输出了这篇文章，本文说明了数据的重要性以及数据在各个环节和领域地位。更重要的是，这篇文章会详尽的讲解数据预处理和特征选择的原理及方法细节。 …

人工智能 2023年6月19日
0085
2021年最完整的人工智能入门指南

这可能是一份中英文世界最好的人工智能学习教程，在充分考虑大家信息获取难度的情况下制定了帮助你掌握人工智能（AI）和机器学习（ML）的完整指南：无需专业背景！无需学费！无需额外的时…

人工智能 2023年6月26日
0050
Python爬虫大作业+数据可视化分析（抓取python职位）

目录一、抓取并解析数据 1.导入相关库 2、获取网页信息 3.数据清洗 4.爬取结果：二、保存数据 1.保存到excel中 2.保存到数据库中 3.调用三、使用flask…

人工智能 2023年7月4日
0063
论文解读：Global Attention Decoder for Chinese Spelling Error Correction

论文解读：Global Attention Decoder for Chinese Spelling Error Correction（ACL2021）简要信息：序号属性值1模…

人工智能 2023年5月31日
0084
ERROR: You appear to be running an X server； please exit X before installing

在linux版本下安装gpu版tensorflow，安装cuda_10.1.105_418.39_linux.run时，报错如下： ERROR: You appear to be …

人工智能 2023年5月25日
0067

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30