python数据分析高阶应用技巧-pandas库聚合案例【 groupby().apply()写法强化】

2023年8月7日上午8:46 • Python • 阅读 76

文章目录

1. 准备数据
2. 对DataFrame对象使用apply()
3. 对groupby()聚合的结果使用apply()
4. 案例分享

python数据分析高阶应用技巧-pandas库聚合案例【 groupby().apply()写法强化】

熟练掌握groupby().apply()写法，有助于将碎片化的数据处理、步骤代码整合起来，这对提高工作效率是大有裨益的。

; 1. 准备数据

首先准备一组代码生成的DataFrame数据，代码如下所示：

import pandas as pd

df = pd.DataFrame({'品种': list('AAAABBBCCD'),
                   '类型': list('abcdccdadd'),
                   '金额': [1, 2, 1, 3, 2, 1, 3, 2, 3, 1]
                   })

数据如下所示：

(如果您对DataFrame的apply()存在疑问，欢迎点击这篇博客学习：python数据分析apply(),map(),applymap()用法归纳。)

对DataFrame对象使用apply()

apply()方法有两个重要的参数，第一个参数是一个自定义的函数（下边用fun()表示），第二个参数则是axis参数。
axis参数为0表示对列操作，设置为1则表示对行操作。

因为是以函数为参数，所以我们在解决实际问题时，还有一个要考虑的因素就是，这个”函数参数”的参数x指代的是什么。(即fun(x)中的x)
这里对上边得到的df做一个简单的示例来说明，对列操作，打印出每个x：

df.apply(lambda x: print(x))

可以看到x即每一列与索引组成的Series对象。因为除了打印没有任何操作，最后返回的是一个Values为None的Series。

如果要求和，则结果显而易见地容易理解：

df.apply(lambda x: x.sum())

可以看到结果如下：

对groupby()聚合的结果使用apply()

对DataFrame对象使用apply()，每个x是一个Series；
对groupby()聚合的结果使用apply()，得到每个x则会是一个DataFrame。

这是我们首先需要知道的，知道了这一点，后边的逻辑才能清晰。对变量df的”品种”列进行聚合，然后使用apply()方法打印每个x如下：

import pandas as pd

df = pd.DataFrame({'品种': list('AAAABBBCCD'),
                   '类型': list('abcdccdadd'),
                   '金额': [1, 2, 1, 3, 2, 1, 3, 2, 3, 1]
                   })
df.groupby(['品种']).apply(lambda x: print(x))

x打印结果如下：

可以看到，每个x都是一个DataFrame，且是按照”品种”列划分为四类品种的。

如果fun()功能是求和，则实现了先聚合，后求和：

df.groupby(['品种']).apply(lambda x: x.sum())

这将不同于直接使用sum()方法：

对比结果以感受其差别

df.groupby(['品种']).sum()

案例分享

下边给出一个略微复杂些的案例，通过groupby()+apply()的方法，可以更快捷地实现。
生成数据的代码及数据如下：

import pandas as pd

df = pd.DataFrame({'品种': list('AAAABBBCCD'),
                   '类型': list('abcdccdadd'),
                   '金额': [1, 2, 1, 3, 2, 1, 3, 2, 3, 1]
                   })
df

需求：求出每个品种的合计金额，每个品种中类型为a,b,c（不包括d）的合计金额，以及每个品种中类型为a,b,c（不包括d）的合计金额，占该品种合计金额的比例。输出一个DataFrame。

先定义一个fun()函数，使其与groupby().apply()组合，最后再对结果的索引列稍作优化即可。

def fun(s):
    b = s['金额'].sum()
    t = 0
    for key, value in s['类型'].items():
        if ((value == 'a') | (value == 'b') | (value == 'c')):
            t += s['金额'][key]
    return pd.DataFrame([(t, b, t / b)], columns=['属于abc类型的金额汇总', '按品种汇总金额', '占比'])

r = df.groupby(['品种']).apply(fun)
result = r.reset_index().drop(['level_1'],axis=1)

因为r是双列索引，稍作优化，result的最终结果：

本次分享就到这里，小啾感谢您的关注与支持！
🌹꧔ꦿ🌹꧔ꦿ🌹꧔ꦿ🌹꧔ꦿ🌹꧔ꦿ🌹꧔ꦿ🌹꧔ꦿ🌹꧔ꦿ🌹꧔ꦿ🌹꧔ꦿ🌹꧔ꦿ🌹꧔ꦿ🌹꧔ꦿ🌹꧔ꦿ🌹꧔ꦿ🌹꧔ꦿ🌹꧔ꦿ🌹꧔ꦿ🌹꧔ꦿ🌹꧔ꦿ🌹꧔ꦿ🌹꧔ꦿ🌹꧔ꦿ🌹꧔ꦿ🌹꧔ꦿ🌹꧔ꦿ🌹꧔ꦿ🌹꧔ꦿ

Original: https://blog.csdn.net/weixin_48964486/article/details/127588129
Author: 侯小啾
Title: python数据分析高阶应用技巧-pandas库聚合案例【 groupby().apply()写法强化】

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/739587/

转载文章受原作者版权保护。转载请注明原作者出处！

python

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

pandas自动创建文件夹_pandas快速入门

pandas有两类数据对象：dataframe和series。Series是一个带标签的一维数组，通常索引在左，值在右。dataframe是一个带标签的二维数组，可以理解成seri…

Python 2023年8月9日
0039
如何运行python程序

python程序的运行方式有两种： 1. 交互式在命令行窗口输入命令 python 进入python解释器交互式客户端，在窗口输入任意python代码，客户端窗口都会立即返回运行…

Python 2023年5月23日
0085
一篇文章带你了解Python中的游戏开发模块pyglet

前言为什么我不选择pygame，原因很简单，因为pyglet 更简单，比较轻量级，就好比django和flask的区别。相信你在读了这篇文章之后也会毅然决然地选择pyglet。…

Python 2023年9月22日
0034
Python基础第二话：列表+元组+字典+集合，学基础还得是这….

Original: https://www.cnblogs.com/123456feng/p/16182648.htmlAuthor: 蚂蚁ailingTitle: Python基…

Python 2023年5月24日
0074
python 推导式

作用推导式：将列表、集合、字典的生成逻辑用[]、{}封起来[逻辑最后逻辑1 逻辑2] 例子 >>> [x*2 for x in range(12) if x!…

Python 2023年6月12日
0086
pandas按条件过滤_python – pandas：按多个条件过滤组？

我有一个如下所示的数据框： df = pd.DataFrame([ {‘id’: 123, ‘date’: ‘2016-…

Python 2023年8月7日
0034
python中for循环的底层实现

在python中，存在2种循环方式：for循环和while循环。while循环的实现很简单，其本质就是一个条件语句，自定义条件，当条件满足的时候，不断执行while代码块。但是…

Python 2023年5月25日
0058
Conda、pip（安装torch等深度学习包、搭建运行环境）解决PackagesNotFoundError: The following packages….

👉 第一步：先创建一个环境这个需要用conda来 conda create -n 名字 python=版&amp…

Python 2023年9月7日
0087
解决sklearn找不到模块（安装后但导入失败）

ImportError: DLL load failed: 找不到指定的模块。要点一：卸载全部numpy、scipy和scikit-learn包 pip uninstall nu…

Python 2023年8月23日
0066
拯救pandas计划（24）——数据框形状的转换：列转行，行转列

拯救pandas计划（24）——数据框形状的转换：列转行，行转列 * – / 数据需求 – / 需求拆解 – / 总结最近发现周围的很多小伙…

Python 2023年8月17日
0056
Matplotlib如何绘制多个子图的几种方法

fig和axis的区别？相信不少小伙伴一开始都是直接用 plt.plot来绘图，非常简单，但这是偷懒的做法，不建议大家这样。 fig, ax = plt.subplots(2,2…

Python 2023年9月2日
0095
Python爬取京东商品评论数据

啊哦~你想找的内容离你而去了哦内容不存在，可能为如下原因导致： ① 内容还在审核中 ② 内容以前存在，但是由于不符合新的规定而被删除 ③ 内容地址错误 ④ 作者删除了内容。可…

Python 2023年8月1日
0063
scrapy基础学习

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。 Original: https://blo…

Python 2023年10月1日
0039
【云原生 • Kubernetes】认识 k8s、k8s 架构、核心概念点介绍

目录一、Kubernetes 简介二、Kubernetes 架构三、Kunbernetes 有哪些核心概念？ 1. 集群 Cluster 2. 容器 Container 3….

Python 2023年8月26日
0073
《深入浅出Pandas：利用Python进行数据处理与分析》——第3部分数据形式变化_03多层索引、数据重塑与透视

文章目录多层索引 * 多层索引概述多层索引操作数据查询数据重塑与透视 * 数据透视【pivot】数据堆叠【stack/unstack】交叉表【crosstab】数据…

Python 2023年8月22日
0043
FT 在图形渲染中的应用：基于 FFT 的海浪模拟

接上文：FT 在图像处理中的应用五、一个大型案例：基于 FFT 的海浪模拟前置：傅里叶级数与傅里叶变换离散傅里叶变换(DFT) FT 在图像处理中的应用 5….

Python 2023年10月27日
0051

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

python数据分析高阶应用技巧-pandas库聚合案例【 groupby().apply()写法强化】

文章目录

大家都在看