数据聚合与分组运算

2023年7月8日上午12:21 • 人工智能 • 阅读 54

标注：我用的是jupyterNotebook

一、分组与聚合的原理

在Pandas 中，分组是指使用特定的条件将原数据划分为多个组，聚合在这里指的是，对每个分组中的数据执行某些操作，最后将计算的结果进行整合。

分组与聚合的过程大概分为以下三步：

二、通过groupby方法将数据拆分成组

1、在Pandas 中，可以通过 groupby()方法将数据集按照某些标准划分成若干个组。

groupby(by=None, axis=0, level=None, as_index=True, sort=True,group_keys=True, squeeze=False, observed=False, kwargs)**

by：用于确定进行分组的依据。
axis：表示分组轴的方向。
sort：表示是否对分组标签进行排序，接收布尔值，默认为True 。

2、groupby ()方法会返回一个GroupBy 对象，该对象实际上并没有进行任何计算，只是包含一些关于分组键的中间数据而已。

• 使用 Series 调用 groupby() 方法返回的是 SeriesGroupBy 对象。

• 使用 DataFrame 调用 groupby() 方法返回的是 DataFrameBy 对象。

3、通过groupby()方法的by 参数可以指定按什么标准分组，该参数可以接收的数据主要有以下4 种：

（1）按列名进行分组

data = df.groupby(by = '身高(cm)')
遍历分组对象
for i in data:
    print(i)
#list(data)

（2）按Series 对象进行分组

arr = pd.Series(['a','b','c','d','e','f','g'])
按自定义Series对象进行分组
group_obj = df.groupby(by=arr)
list(group_obj)

结果：

如果Series 对象与Pandas 对象的索引长度不相同时，则只会将具有相同索引的部分数据进行分组。

df = se = pd.Series(['a', 'a', 'b'])
group_obj = df.groupby(se)['one', 'two', 'one','two', 'one'],
    'data1': [2, 3, 4, 6, 8],
    'data2': [3, 5, 6, 3, 7]})
se = pd.Series(['a', 'a', 'b'])
group_obj = df.groupby(se)

（3）按字典进行分组

mapping = {'a':'第一组','b':'第二组','c':'第一组','d':'第三组','e':'第二组'}
by_column = num_df.groupby(mapping, axis=1)

（4）按函数进行分组

将函数作为分组键会更加灵活，任何一个被当做分组键的函数都会在各个索引值上被调用一次，返回的值会被用作分组名称。

使用内置函数len进行分组
groupby_obj = df.groupby(len)

三、数据聚合

1、获取最大值和最小值的max()和mix()，这些方法常用于简单地聚合分组中的数据。

#进行分组，求每个分组的平均值
data = df.groupby(by = '身高(cm)').mean()
data

结果：

2、对每一列数据应用同一个函数

如果内置方法无法满足聚合要求时，则可以自定义函数，将它作为参数传给agg()方法，实现Pandas 对象的聚合运算。

def dfs(arr):
    return arr.max()-arr.min()
data.agg(dfs)

结果：

3、对某列数据应用不同的函数

可以将两个函数的名称放在列表中，之后在调用agg()方法进行聚合时作为参数传入即可

#对一列数据用函数聚合
data.agg([dfs,sum])

结果：

4、对不同列数据应用不同函数

如果希望对不同的列使用不同的函数，则可以在agg()方法中传入一个{“列名”:”函数名”}格式的字典。

data_group.agg({'a': 'sum', 'b': 'mean', 'c': range_data_group})

四、分组及运算

1、数据转换

如果希望保持与原数据集形状相同，那么可以通过transfrom()方法实现。

格式如下：

transform(func, *args, kwargs)**

• 上述方法中只有一个 func 参数，表示操作 Pandas 对象的函数。

• transfrom () 方法会把 func 函数应用到各个分组中，并且将计算结果放在适当的位置上。

transform()方法返回的结果有两种，一种是可以广播的标量值（np.mean ），另一种可以是与分组大小相同的结果数组。

2、数据应用

apply()方法的使用是十分灵活的，它可以在许多标准用例中替代聚合和转换，另外还可以处理一些比较特殊的用例。

格式如下：

apply(func, axis=0, broadcast=None, raw=False, reduce=None,result_type=None, args=(), kwds)**

func：表示应用于某一行或某一列的函数。
axis：表示函数操作的轴向。
broadcast：表示是否将数据进行广播。

Original: https://blog.csdn.net/Yml13/article/details/124810442
Author: Yml13
Title: 数据聚合与分组运算

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/677383/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

MATLAB 剔除异常点

利用线性插值剔除离群点 A = [57 59 60 100 59 58 57 58 300 61 62 60 62 58 57]; B = filloutliers(A,’line…

人工智能 2023年5月26日
00101
cuda多版本管理和分类、运行时cuda、驱动cuda

简单的信息查看和调试命令运行时只会采用虚拟环境里面的cuda运行时版本，所以不用显示切换cuda版本，只要支持即可。查看cuda版本 ls -l /usr/local | gr…

人工智能 2023年7月1日
00140
模型压缩（一）通道剪枝-BN层

论文：https://arxiv.org/pdf/1708.06519.pdf BN层中缩放因子γ与卷积层中的每个通道关联起来。在训练过程中对这些比例因子进行稀疏正则化，以自动识别…

人工智能 2023年6月16日
00104
第十七届CH32V307多车组头尾双车摄像头传统扫线循迹

一.传统的扫线循迹，网上的资料繁杂，开源资料或者博客破碎化 1.我于2021年10份正式接触摄像头，在到最终比赛期间，遇到了不少困难和迷惑的地方，接下来我会阐述摄像头小车整个从图像…

人工智能 2023年6月17日
00138
网课搜题题库公众号使用-全网最好用

啊哦~你想找的内容离你而去了哦内容不存在，可能为如下原因导致： ① 内容还在审核中 ② 内容以前存在，但是由于不符合新的规定而被删除 ③ 内容地址错误 ④ 作者删除了内容。可…

人工智能 2023年5月30日
00102
Windows下Pycharm中引入CRFPP出错解决

1.错误信息 import CRFPP ModuleNotFoundError: No module named ‘CRFPP’ 显示没有名为CRFPP的模…

人工智能 2023年6月1日
0072
Python爬虫——csv数据存取/数据处理

1. Python内置csv模块常用模式含义 rb二进制读rb+二进制读写 w+读写wb二进制写wb+二进制读写 a+读写ab二进制读ab+二进制读写注意：1. 使…

人工智能 2023年7月8日
0089
pytorch resnet 自定义数据集分类

pytorch的torchvision内置了resnet主干网络,想要训练自定义分类数据集,只需要将全连接层的替换即可实现自定义数据集分类本次我们使用的是resnet18 做自定…

人工智能 2023年6月30日
0077
TensorFlow/PyTorch和cuda等版本对应关系

参考： NVIDIA系列显卡做深度学习,需要在主机安装显卡驱动(driver) 在docker中安装英伟达的科学计算库(cuda) 在python中安装深度学习库(pytorch…

人工智能 2023年5月26日
00105
二、产品经理的产出

产品经理的产出一、可靠的产品Idea文档二、行业分析报告与竞品分析文档三、项目立项文档 1、产品分析画布 2、产品的方向与格局 3、PMF+MVP 四、产品调研文档 1、用户…

人工智能 2023年6月6日
0087
目标检测项目中面对高分辨率图像的滑动窗口技术（一）（代码开源，超简便API封装，直接调用进行切图及保存）

目录一、技术背景二、解决方法介绍：滑动窗口切图、随机中心点切图三、程序代码四、使用文档一、技术背景在目标检测项目中，面对高分辨率、小目标的图片数据（如航拍图片数据），若…

人工智能 2023年6月16日
00131
sa岗位是什么意思_日语基础：五十音图-さ（sa）行辅音

日语基础知识本次我们学习さ（sa）行辅音。先祭出五十音图さ（sa）行辅音的平假名写法和发音如下。这里有两个注意事项：（1）し（shi）的发音shi不像汉语拼音那样发翘舌音&#…

人工智能 2023年5月27日
0072
阿里巴巴数字商业知识图谱的构建及应用

作者：熊飞宇(非宇) 阿里业务平台团队知识图谱是用图的方式描述实体以及实体之间的关联关系, 是实现认知智能的重要支撑技术之一。目前，阿里巴巴利用知识图谱对商业要素进行建模，已开发…

人工智能 2023年6月16日
00102
模型评价 – 分类模型的常用评价指标

习题答案习题一答案一、选择题 1. 软件的主要特性是(A B C)。 A) 无形 B) 高成本 C) 包括程序和文档 D) 可独立构成计算机系统 2. 软件工程三要素是(…

人工智能 2023年7月2日
0095
深度学习：AlexNet实现服装分类（Pytorch）

深度学习：AlexNet实现服装分类（Pytorch）前置知识表征学习模型介绍 * 模型架构模型特点代码实战 * 服装分类数据集定义模型测试数据训练模型结果展示 …

人工智能 2023年7月1日
0083
R语言——数据分析

数据：是指对客观事件进行记录并可以鉴别的符号，是对客观事物的性质、状态以及相互关系等进行记载的物理符号或这些物理符合的组合为什么要做数据分析我们可以通过数据分析的结果来指导决策…

人工智能 2023年7月18日
0061

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

数据聚合与分组运算

大家都在看