pandas合并groupby_pandas groupby 使用指南

2023年8月7日上午11:28 • Python • 阅读 45

groupby技术

groupby 是pandas 中非常重要的一个函数, 主要用于数据聚合和分类计算. 其思想是”split-apply-combine”(拆分 – 应用 – 合并).

pandas之父对groupby技术的图片实例

pandas groupby 的应用非常灵活, 但只要记住上面的核心思想-“split-apply-combine”, 就不难理解了. 我不太擅长解释这类概念性的东西, 直接看例子吧.

例子

美国有一个数据是关于职业调查的. 可以通过下面的链接下载.

user_id age gender occupation zip_code

1 24 M technician 85711

2 53 F other 94043

3 23 M writer 32067

4 24 M technician 43537

5 33 F other 15213

user_id: id号

age: 年龄

gender: 性别

occupation: 职业

zip_code: 邮政编码, 通过邮政编码可获取所在城市

假设你已经下载并导入了上面的数据; 或者不需要下载, 直接用下面的代码读取远程的数据.

url = “https://raw.githubusercontent.com/justmarkham/DAT8/master/data/u.user”

df = pd.read_csv(url, sep=”|”)

那么, 怎么解决下面的问题呢?

如何找出每一种职业的平均年龄?并按照平均年龄从大到小排序?

分别找出男人和女人每种职业的人数?

更进一步, 如何找出男人和女人在不同职业的平均年龄?

如果能快速解决上面的三个问题, 说明初步掌握groupby. 使用pandas解决的方法可能有多种, 但是这里使用groupby还是比较方便的.

问题1 : 如何找出每一种职业的平均年龄?并按照平均年龄从大到小排序?

问题1, 一行代码即可搞定

df.groupby(“occupation”).age.mean().sort_values(ascending=False)

output

occupation

retired 63.071429

doctor 43.571429

educator 42.010526

healthcare 41.562500

librarian 40.000000

administrator 38.746835

executive 38.718750

marketing 37.615385

lawyer 36.750000

engineer 36.388060

writer 36.311111

salesman 35.666667

scientist 35.548387

other 34.523810

technician 33.148148

programmer 33.121212

homemaker 32.571429

artist 31.392857

entertainment 29.222222

none 26.555556

student 22.081633

Name: age, dtype: float64

sort_value 是用来排序的. 主要看前面的 df.groupby(“occupation”).age.mean() , 还记得前面说的groupby的思想吗, “split-apply-combine”(拆分 – 应用 – 合并).

首先df按照每一种occupation拆分成多个部分, 然后分别计算每种occupation的age的平均值.然后合并成一个Dataframe或者Series.

值得注意的是, groupby之后是一个对象, 知道应用一个函数之后才会变成一个Series或者Dataframe.

type(df.groupby(“occupation”))

output

pandas.core.groupby.groupby.DataFrameGroupBy

问题2 : 分别找出男人和女人每种职业的人数?

df.groupby([‘occupation’,’gender’]).size()

Output

occupation gender

administrator F 36

M 43

artist F 13

M 15

doctor M 7

educator F 26

M 69

…

与前例稍微不同的是, 这次按照两个column, occupation和gender来进行group. 然后通过size计算每个职业指定性别的人数.

问题3 : 如何找出男人和女人在不同职业的平均年龄?

df.groupby([‘occupation’,’gender’]).age.mean()

Output

occupation gender

administrator F 40.638889

M 37.162791

artist F 30.307692

M 32.333333

doctor M 43.571429

educator F 39.115385

M 43.101449

engineer F 29.500000

M 36.600000

…

groupby 详解

通过上面的例子, groupby 的基本应用应该已经讲清, 总而言之记住核心思想. 接下来详细的聊聊groupby的各种应用及细节.

首先来看看官方文档的参数描述.

DataFrame.groupby(by=None, axis=0, level=None, as_index=True, sort=True, group_keys=True, squeeze=False, observed=False, **kwargs)

最常用的参数其实只有两个, by 跟 as_index, 其他的很少用到, 如果有需要用到的那就仔细阅读官方文档

by 就是我们上面用的, 可以是column, 但其实也可以是与df同行的Series.

as_index 是指是否将groupby的column作为index, 默认是True

对groupby对象应用自定义函数

上面我们都是以pandas自带的函数应用再group对象上的, 可不可以使用自定义的函数呢? 答案是可以的.先看下面的代码

demo = df[:5]

demo.groupby(“gender”).apply(lambda x: print(x))

output

user_id age gender occupation zip_code

1 2 53 F other 94043

4 5 33 F other 15213

user_id age gender occupation zip_code

1 2 53 F other 94043

4 5 33 F other 15213

user_id age gender occupation zip_code

0 1 24 M technician 85711

2 3 23 M writer 32067

3 4 24 M technician 43537

也就是说, 其实groupby之后的dataframe是按照不同的值区分的. 这样我们就可以直接自定义函数来处理了. 如果你细心的话, 你会发现其中一个dataframe出现了两次, 这是apply 的设计问题.详情请看这里:https://stackoverflow.com/questions/21390035/python-pandas-groupby-object-apply-method-duplicates-first-group

未完待续…

Original: https://blog.csdn.net/weixin_35020262/article/details/113004831
Author: 突发奇想的饭粒
Title: pandas合并groupby_pandas groupby 使用指南

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/739876/

转载文章受原作者版权保护。转载请注明原作者出处！

python

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

05.自定义类型：枚举&联合

1.枚举枚举顾名思义就是一一列举。把可能的取值一一列举。比如我们现实生活中：一周的星期一到星期日是有限的7天，可以一一列举。性别有：男、女、保密，也可以一一列举。月份有12…

Python 2023年11月6日
0045
基于pygame的自定义游戏《the box》

创建一款什么样的游戏需要实现什么样的功能如何去实现基本的功能背景模块主角色模块场景模块逻辑模块最近在学习java之余，利用空余时间写了一款基于pygame的游戏，主要…

Python 2023年9月18日
0038
VMD如何确定分解层数（二）：通过样本熵（SE）确定

关于VMD的介绍，这里就不赘述了，前面已经有详细说明了，如果有疑问，大家可以去CSDN其他博主上面去寻求答案，因为每个人的疑问点不同，多看几篇，会有整体的认识。这篇文章是讲如何通…

Python 2023年9月16日
0089
Pandas常见方法（2）-pandas对数据的预处理

说明：本blog基于python3， pandas 1.3.5版本本文主要介绍如何对数据做预处理，包括缺失值过滤、缺失值补全、数据转换（重复值删除，数据映射、数据替换）、简单运…

Python 2023年8月16日
0067
活体检测综述 Deep Learning for Face Anti-Spoofing: A Survey 阅读记录

论文链接：Deep Learning for Face Anti-Spoofing: A Survey | IEEE Journals & Magazine | IEEE …

Python 2023年10月10日
0060
深度学习(1) ——图像分类

网络结构：这里大量使用了1×1的卷积，主要作用是实现跨通道的语义信息融合和降维减少参数量。实现： class Inception(tf.keras.layers.La…

Python 2023年9月29日
0043
prometheus alertmanager 自定义webhook

目的：配置 alertmanager，使其能够以 webhook 的方式触发告警的推送一、编写webhook 解析告警内容并发送短信（此处以简单打印为例）根据flask不同的启…

Python 2023年8月9日
0058
python处理几十g的数据_Python数据处理（持续更新）

打开txt文件打开txt文件 with open(‘day02.txt’) as f:for line inf.readlines(): aline=li…

Python 2023年8月7日
0054
Day44.Python数据可视化（2）

Python数据可视化（2）文章目录 Python数据可视化（2）前言一. Matplotlib * 1.1 几个常见图形 1.2 Matplotlib 可视化例子： &#8…

Python 2023年9月4日
0071
交通流预测爬坑记（三）：使用pytorch实现LSTM预测交通流

很长时间没有更新内容了，上一篇可以看做是刚接触深度学习写的，看法非常狭隘，内容非常粗糙。在最近的学习中接触到了Pytorch，不得不承认，相对于TensorFlow来讲，灵活很多。…

Python 2023年8月3日
0048
Pandas处理表格基础

现在使用Python处理表格类数据（excel/csv）已经成为工作不可或缺的技能，尤其大数据量的分析筛选转换，Python更可以提供无与伦比的优势，使用Python处理数据，那P…

Python 2023年8月16日
0059
pytest 基础认知

pytest 基础认知 * – + pytest 简介 + pytest 安装 + pytest用例规则 + * pytest 测试用例编写规则 * pytest收集测…

Python 2023年9月14日
0067
JavaWeb项目—— 博客系统

文章目录效果展示 * 1. 创建 maven 项目 2. 设计数据库 3. 封装数据库的操作代码 – 3.1 创建 DBUtil 类 3.2 创建 Blog（代表一篇…

Python 2023年10月10日
0039
第三方支付接口如何测试【杭州多测师-申sir】

先看下流程图，是否对流程图有些了解，不仅仅是做支付功能相关测试才去搞清楚其中的流程，做其他的测试一样也要搞清楚流程，只有搞清楚流程，才能更好的评估其中的风险，才能有利于的设计。当然…

Python 2023年6月10日
0072
pytest之fixture的学习总结三

前面介绍过pytest中的setup和teardown函数，包括模块级别、类、函数、方法级别的。但是有个缺陷，就是如果用例抛异常了，那么teardown函数就不会执行了。而fixt…

Python 2023年9月10日
0046
pythonlambda函数替换列表_python——用lambda函数替换for循环

场景如下：现在有一个dataframe，其中一列为score，值从0-100， df： score 现在需要增加一列level，给这些分数分类，90分以上为A，60-90为B，6…

Python 2023年8月21日
0043

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

pandas合并groupby_pandas groupby 使用指南

大家都在看