Pandas groupby分组操作详解

2023年8月7日上午4:03 • Python • 阅读 43

在数据分析中，经常会遇到这样的情况：根据某一列（或多列）标签把数据划分为不同的组别，然后再对其进行数据分析。比如，某网站对注册用户的性别或者年龄等进行分组，从而研究出网站用户的画像（特点）。在
Pandas 中，要完成数据的分组操作，需要使用 groupby() 函数，它和 SQL 的GROUP BY操作非常相似。

在划分出来的组（group）上应用一些统计函数，从而达到数据分析的目的，比如对分组数据进行聚合、转换，或者过滤。这个过程主要包含以下三步：

拆分（Spliting）：表示对数据进行分组；
应用（Applying）：对分组数据应用聚合函数，进行相应计算；
合并（Combining）：最后汇总计算结果。

创建groupby分组对象

使用 groupby() 可以沿着任意轴分组。您可以把分组时指定的键（key）作为每组的组名，方法如下所示：

df.groupby(“key”)
df.groupby(“key”,axis=1)
df.groupby([“key1″,”key2”])

import pandas as pd
import numpy as np
data = {'Name': ['John', 'Helen', 'Sona', 'Ella'],
   'score': [82, 98, 91, 87],
   'option_course': ['C#','Python','Java','C']}
df = pd.DataFrame(data)
print(df)

print(df.groupby('score'))

查看分组结果

通过调用groups属性查看分组结果：

import pandas as pd
import numpy as np
data = {'Name': ['John', 'Helen', 'Sona', 'Ella'],
   'score': [82, 98, 91, 87],
   'option_course': ['C#','Python','Java','C']}
df = pd.DataFrame(data)

print(df.groupby('score').groups)

当然也可以指定多个列标签进行分组，示例如下：

import pandas as pd
import numpy as np
data = {'Name': ['John', 'Helen', 'Sona', 'Ella'],
   'score': [82, 98, 91, 87],
   'option_course': ['C#','Python','Java','C']}
df = pd.DataFrame(data)

print(df.groupby(['Name','score']).groups)

遍历分组数据

通过以下方法来遍历分组数据，示例如下：

import pandas as pd
import numpy as np
data = {'Name': ['John', 'Helen', 'Sona', 'Ella'],
   'score': [82, 98, 91, 87],
   'option_course': ['C#','Python','Java','C']}
df = pd.DataFrame(data)

grouped=df.groupby('score')
for label, option_course in grouped:

    print(label)

    print(option_course)

应用聚合函数

当您在创建 groupby 对象时，通过 agg() 函数可以对分组对象应用多个聚合函数：

import pandas as pd
import numpy as np
data = {'name': ['John', 'Helen', 'Sona', 'Ella'],
   'score': [82, 98, 91, 87],
   'option_course': ['C#','Python','Java','C']}
df = pd.DataFrame(data)
grouped=df.groupby('name')

print(grouped['score']).agg(np.mean)

组的转换操作

在组的行或列上可以执行转换操作，最终会返回一个与组大小相同的索引对象。示例如下：

import pandas as pd
import numpy as np
df = pd.DataFrame({'种类':['水果','水果','水果','蔬菜','蔬菜','肉类','肉类'],
                '产地':['朝鲜','中国','缅甸','中国','菲律宾','韩国','中国'],
                '水果':['橘子','苹果','哈密瓜','番茄','椰子','鱼肉','牛肉'],
                '数量':[3,5,5,3,2,15,9],
                '价格':[2,5,12,3,4,18,20]})

print(df.groupby('种类').transform(np.mean))

demean = lambda arr:arr-arr.mean()
print(df.groupby('种类').transform(demean))

def get_rows(df,n):

    return df.iloc[:n,:]

print(df.groupby('种类').apply(get_rows,n=1))

组的数据过滤操作

通过 filter() 函数可以实现数据的筛选，该函数根据定义的条件过滤数据并返回一个新的数据集。

import pandas as pd
import numpy as np
data = {'Team': ['Riders', 'Riders', 'Devils', 'Devils', 'Kings',
   'kings', 'Kings', 'Kings', 'Riders', 'Royals', 'Royals', 'Riders'],
   'Rank': [1, 2, 2, 3, 3,4 ,1 ,1,2 , 4,1,2],
   'Year': [2014,2015,2014,2015,2014,2015,2016,2017,2016,2014,2015,2017],
   'Points':[874,789,863,663,741,802,756,788,694,701,812,698]}
df = pd.DataFrame(data)

print (df.groupby('Team').filter(lambda x: len(x) >= 2))

Original: https://blog.csdn.net/guguo666/article/details/128329425
Author: 一颗西柚子
Title: Pandas groupby分组操作详解

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/739123/

转载文章受原作者版权保护。转载请注明原作者出处！

python

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

Pytest 不同文件的执行顺序

引言unittest框架和pytest框架编写的测试用例执行顺序，默认根据ACSII码的顺序加载测试用例，数字与字母的顺序为：0~9，A~Z，a~z。 1.对于类来说，class …

Python 2023年9月10日
0058
Django学习记录12

指对一个数据表里的所有元素进行部分（整表聚合）或者全部（分组聚合）统计查询eg：统计平均值、最大、最小值等整表查询：1、导入 from django.db.models impor…

Python 2023年8月5日
0059
【Docker系列】Python Flask + Redis 练习程序

Python Flask + Redis 练习两个容器，一个flask-demo，一个是redis-server在一个自定义网络bridge，相互 ping，不需要知道 ip，只…

Python 2023年8月11日
0034
scrapy重试机制_Scrapy 框架理解

scrapy的架构图：组件 Scrapy Engine 引擎负责控制数据流在系统中所有组件中流动，并在相应动作发生时触发事件。调度器(Scheduler) 调度器从引擎接受re…

Python 2023年10月3日
0047
CS5260最新版规格书|CS5260设计方案|TYPEC转VGA转换芯片

CS5260最新版规格书|CS5260设计方案|TYPEC转VGA转换芯片 CS5260是一款低功耗、DisplayPort信号转VGA转换器芯片,通过USB Type-C连接器。…

Python 2023年10月28日
0033
R实战 | 限制性立方样条(RCS)

RCS 在科学研究中，我们经常构建回归模型来分析 自变量和 因变&am…

Python 2023年8月1日
0094
关于阿里云服务器配置Ubuntu18.04+python环境

关于阿里云服务器配置Ubuntu18.04+python环境需要准备的软件有以下 Xshell Xftp 云服务器（这里以阿里云为例）环境配置文件（附上下载链接）点击前往gi…

Python 2023年8月4日
0083
爬虫神器scrapy的安装

爬虫神器scrapy的安装有一说一，这个安装和普通的第三方库安装不一样，需要额外下载才行【注意一下】，如果你的电脑是linux系统的话直接pip就行，如果和我一样是windo…

Python 2023年10月2日
0052
股票高频数据（分钟数据）的入门分析方法——已实现波动率的计算（含完整代码）

本文摘要本文叙述了对股票市场高频数据分析一个简单方法，即已实现波动率的计算和后续的相关研究。采用上证综指2019年至2021年3年间实时交易价格的每分钟数据，在已实现方差法下计算…

Python 2023年8月2日
0040
python目的追踪

import pygame,sysfrom math import *pygame.init()font1=pygame.font.SysFont(‘microsoft…

Python 2023年9月18日
0041
python中类与对象的命名空间（静态属性的陷阱）、__dict__ 和 dir() 在继承中使用说明

1. 面向对象的概念 1）类是一类抽象的事物，对象是一个具体的事物；用类创建对象的过程，称为实例化。 2）类就是一个模子，只知道在这个模子里有什么属性、什么方法，但是不知道这些属性…

Python 2023年10月20日
0039
Django 自定义权限管理系统详解(通过中间件认证)

1. 创建工程文件，修改setting.py文件 django-admin.py startproject project_name 特别是在 windows 上，如果报错，尝试…

Python 2023年8月6日
0073
【Pygame小游戏】趣味益智游戏：打地鼠，看一下能打多少只呢？（附源码）

前言 🚀 作者：”程序员梨子” 🚀 文章简介：本篇文章主要是写了使用Pygame写的打地鼠小游戏啦~ 🚀 **文章源码免费获取：为了感谢每一个关注我…

Python 2023年9月18日
0051
大数据下一代变革之必研究数据湖技术Hudi原理实战双管齐下-后续

@ 集成Flink 编程示例打包运行 CDC入湖概述 MySQL 启用 binlog 初始化MySQL 源数据表准备Jar包依赖 flink读取mysql binlog写入k…

Python 2023年10月13日
0052
前端加密算法之SM4

1、简介 1.1、国产加密算法，是一个分组算法，该算法的分组长度为128bit，密钥长度为128bit,SM4算法与AES算法具有相同的密钥长度分组长度128比特，因此在安全性上高…

Python 2023年6月9日
0091
“成长型企业品牌重塑计划”正式启动助推大连经济高质量发展

推荐文章 1024程序员节 | 实体好礼0元送，错过再等1年~推荐原创51CTO博客11天前10000+阅读2点赞6评论1收藏 3步领取，7日到手：发布文章——>等待审核（9…

Python 2023年10月27日
0043

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31