数据科学必备Pandas数据分组GroupBy方法汇总

2023年6月11日下午2:42 • 人工智能 • 阅读 67

大家好，我是Mr数据杨。今天我们将一同走进充满数字的Python世界，我想拿《三国演义》的例子来阐述一下学习笔记中的主题。

首先得有数据。试想一下，如果三国的谋士们如诸葛亮，郭嘉，周瑜，手中没有了兵力、粮草、城池的数据，他们又怎能谋划出赢得战争的策略呢？这就如同在学习Python的过程中需要用到的三国志人物数据，空气质量数据集，新闻聚合器数据集。数据是分析的基石，就像每一场战争的胜败都基于谋士手中的资料。

然后，将这些数据如何有效地整理和使用就像《三国演义》中的谋士们一样，他们如何利用手中的信息，才是关键。比如说，Python里的GroupBy的工作原理。GroupBy就像诸葛亮把不同战区的信息整理归类，把相同的数据放在一起，这样便于分析和利用。或许周瑜就是这样利用GroupBy原理，将敌人的兵力分布、粮草储备等信息整理出来，然后决定是否施行火攻。

最后来聊聊提高GroupBy的性能。性能，对于Python来说是至关重要的，这就如同战场上，郭嘉总能运筹帷幄之中，决胜千里之外，这就是他提高了策略的效率，GroupBy的性能也是如此，优化它，能更快更准确地帮助拿到想要的结果。

当然，这只是个开头，接下来我们还会一起深入探讨Pandas GroupBy方法的汇总，就像三国演义的战役一样，每一场都充满惊奇和学问。

数据准备

三国志13的人物数据。
空气质量数据集包含定期气体传感器读数。
新闻数据集其中包含数十万条新闻文章的元数据。

示例1：三国志人物数据

我们以剖析《三国志》人物数据为例，来介绍GroupBy操作的具体用法。

首先，我们需要导入pandas库，并读取人物数据的Excel文件。

import pandas as pd

df = pd.read_excel("Romance of the Three Kingdoms 13/人物详情数据.xlsx")
df.head()

下面是导入数据并显示前几行的示例结果：

问题1（单列聚合）： 如果想了解所有人物中的分类情况，即文臣和武将的数量分别是多少，应该如何操作？

我们可以使用SQL语句和Pandas操作来实现。

SQL操作：

SELECT 分類, count(名前) as 数量
FROM df
GROUP BY 分類
ORDER BY 分類;

Pandas操作：

n_by_state = df.groupby("分類")["名前"].count().nlargest(2)
n_by_state

执行以上操作后，可以得到文官和武官的数量分别为336和520。

问题2（多列聚合）： 如何按照性别和分类进行人物的区分？

我们可以使用SQL语句和Pandas操作来实现。

SQL操作：

SELECT 分類, 性別, count(名前) as 数量
FROM df
GROUP BY 分類, 性別
ORDER BY 分類, 性別;

Pandas操作：

n_by_state = df.groupby(["分類", "性別"])["名前"].count()
n_by_state

执行以上操作后，可以得到按照性别和分类进行区分的结果。

示例2：空气质量数据集

接下来，我们以空气质量数据集为例，介绍GroupBy操作的更多用法。

import pandas as pd

df = pd.read_excel("数据科学必备Pandas实用操作GroupBy数据分组详解/AirQualityUCI.xlsx", parse_dates=[["Date", "Time"]])
df.rename(columns={
    "CO(GT)": "co",
    "Date_Time": "tstamp",
    "T": "temp_c",
    "RH": "rel_hum",
    "AH": "abs_hum",
}, inplace=True)

df.set_index("tstamp", inplace=True)

下面是导入数据并对其进行处理后的示例结果：

在这个数据集中， co 是每小时的平均一氧化碳读数， temp_c、 rel_hum 和 abs_hum 分别是每小时的平均温度、相对湿度和绝对湿度。观察时间跨度从 2004 年 3 月持续到 2005 年 4 月。

派生数组进行分组

我们可以利用星期的数据（转化后的字符串）进行分组聚合。

day_names = df.index.day_name()
day_names[:10]

执行以上操作后，可以得到每天的星期名称。

问题1： 如何计算一周中某天的平均一氧化碳 (co) 的数据？

df.groupby(day_names)["co"].mean()

执行以上操作后，可以得到一周中每天的平均一氧化碳 (co) 数据。

问题2： 如何按照星期和每个时间段对数据进行聚合？

hr = df.index.hour
df.groupby([day_names, hr])["co"].mean().rename_axis(["dow", "hr"])

执行以上操作后，可以按照星期和每个时间段对数据进行聚合。

问题3： 如何根据温度划分离散区间对数据进行分组聚合？

bins = pd.cut(df["temp_c"], bins=3, labels=("cool", "warm", "hot"))
df[["rel_hum", "abs_hum"]].groupby(bins).agg(["mean", "median"])

执行以上操作后，可以根据温度划分离散区间对数据进行分组聚合。

问题4： 如何按年度和季度对数据进行聚合？

df.groupby([df.index.year, df.index.quarter])["co"].agg(["max", "min"]).rename_axis(["year", "quarter"])

执行以上操作后，可以按照年度和季度对数据进行聚合。

示例3：新闻聚合器数据集

最后，我们以新闻

聚合器数据集为例，介绍GroupBy操作的更多用法。

import datetime as dt
import pandas as pd

def parse_millisecond_timestamp(ts):
    return dt.datetime.fromtimestamp(ts / 1000, tz=dt.timezone.utc)

df = pd.read_csv(
    "数据科学必备Pandas实用操作GroupBy数据分组详解/newsCorpora.csv",
    sep="\t",
    header=None,
    index_col=0,
    names=["title", "url", "outlet", "category", "cluster", "host", "tstamp"],
    parse_dates=["tstamp"],
    date_parser=parse_millisecond_timestamp,
    dtype={
        "outlet": "category",
        "category": "category",
        "cluster": "category",
        "host": "category",
    },
)
df.head()

下面是导入数据并显示前几行的示例结果：

在这个数据集中， category 列包含了新闻的分类，分别是 b 商业、t 科技、e 娱乐和 m 健康。

问题1： 如何计算包含某关键字的数据在不同出版机构中的出现次数，并按次数排序？

df.groupby("outlet", sort=False)["title"].apply(
    lambda ser: ser.str.contains("Fed").sum()
).nlargest(10)

执行以上操作后，可以得到包含某关键字的数据在不同出版机构中的出现次数，并按次数排序。

GroupBy 的工作原理

实际上， .groupby() 操作是由三个步骤组成的：拆分、应用和合并。

拆分过程

我们可以通过对GroupBy对象进行迭代来查看拆分的结果。

by_state = df.groupby("分類")

for state, frame in by_state:
    print(f"前2条数据 {state!r}")
    print("------------------------")
    print(frame.head(2), end="\n\n")

执行以上操作后，会显示每个组的前两条数据。

应用过程

将相同的操作（或可调用对象）应用于拆分阶段生成的每个小组。

state, frame = next(iter(by_state))
state
'文官'

frame.head(5)

执行以上操作后，可以查看应用操作后的结果。

合并过程


python
frame["&#x540D;&#x524D;"].count()
336

以上操作展示了合并阶段的结果。

提高GroupBy的性能

使用适当的方法可以提高GroupBy操作的性能。

Version 1: 使用 .apply()

df.groupby("outlet", sort=False)["title"].apply(
    lambda ser: ser.str.contains("Fed").sum()
).nlargest(10)

Version 2: 使用矢量化操作

mentions_fed = df["title"].str.contains("Fed")
mentions_fed.groupby(
    df["outlet"], sort=False
).sum().nlargest(10).astype(np.uintc)

以上是使用两种不同方法进行操作的示例，可以看到使用矢量化操作的性能更好。

Pandas GroupBy 方法汇总

Pandas提供了许多GroupBy方法，下面是一些常用的方法：

聚合方法（也称为归约方法）：.agg()、.aggregate()、.all()、.any()、.apply()、.corr()、.corrwith()、.count()、.cov()、.cumcount()、.cummax()、.cummin()、.cumprod()、.cumsum()、.describe()、.idxmax()、.idxmin()、.mad()、.max()、.mean()、.median()、.min()、.nunique()、.prod()、.sem()、.size()、.skew()、.std()、.sum()、.var()。
过滤器方法：.filter()、.first()、.head()、.last()、.nth()、.tail()、.

take()。

转换方法：.bfill()、.diff()、.ffill()、.fillna()、.pct_change()、.quantile()、.rank()、.shift()、.transform()、.tshift()。
元方法：. iter()、.get_group()、.groups、.indices、.ndim、.ngroup()、.ngroups、.dtypes。
绘图方法：.hist()、.ohlc()、.boxplot()、.plot()。

以上是对GroupBy操作的示例和方法汇总，希望能帮助你更好地理解和应用Python编程中的GroupBy功能。

Original: https://blog.csdn.net/qq_20288327/article/details/124884920
Author: Mr数据杨
Title: 数据科学必备Pandas数据分组GroupBy方法汇总

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/600299/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

读书笔记-深度神经网络参数的初始化

参数初始化的读书笔记。参考图书：深度学习入门：基于Python的实现，神经网络与深度学习（NNDL）。参数初始化主要分为：随机初始化和预训练初始化。随机初始化直接依赖先验分布…

人工智能 2023年6月4日
00101
课堂笔记| 第八章：模板

本节课要点：宏定义变量模板函数模板类模板变长参数 *在位构造一、使用宏定义绕开类型的限制为了绕开类型，解决问题的方法之一是使用C风格的宏定义。单词：macro 宏 …

人工智能 2023年6月28日
00117
目标检测: 一文读懂 OTA 标签分配

论文：OTA: Optimal Transport Assignment for Object Detection 论文链接：https://arxiv.org/abs/2103….

人工智能 2023年6月19日
0047
【论文笔记】Visual Attention Network

论文论文题目：Visual Attention Network 论文地址：https://arxiv.org/abs/2202.09741 项目地址：Visual-Attenti…

人工智能 2023年5月28日
0092
超算云服务深度学习环境配置Pytorch1.6+CUDA10.2+DGL0.4.3

超算云服务深度学习环境配置登录超算云服务连接服务器 * 1. 通过SSH连接服务器 2. 通过第三方软件连接服务器（Xshell）配置深度学习环境 * 1. 查看服务器已安装…

人工智能 2023年6月17日
00218
python去掉重复pandas_pandas去除重复列的实现方法

数据准备假设我们目前有两个数据表： ① 一个数据表是关于三个人他们的id以及其他的几列属性信息 import pandas as pd import numpy as np da…

人工智能 2023年7月8日
0058
盘点面试中常见的超大规模数据常见的算法问题

在大部分算法题目中，默认给定的数据量都很小的，例如只有几个或者十几个元素，但是如果将数据量提高到百万甚至十几亿，那处理逻辑就会发生很大差异，这也是算法考查中，经常出现的一类问题。此…

人工智能 2023年6月28日
0061
协同过滤算法如何处理用户的隐私和安全性问题

协同过滤算法处理用户隐私和安全性问题协同过滤算法是一种常用的推荐算法，它通过分析用户行为数据和用户间的关系来进行推荐。然而，在使用协同过滤算法时，需要考虑用户的隐私和安全性问题。…

人工智能 2024年1月2日
0024
python——pandas基础篇

pandas基础篇（二）这部分主要整理介绍pandas的基本数据结构及其基础语法pandas的基本数据结构有两种数据类型：（1）Series(2) DataFrame 1. Se…

人工智能 2023年7月7日
0061
PyTorch-05神经网络与全连接（Logistic Regression、交叉熵、交叉熵来优化一个多分类的问题、全连接层（MLP网络层）、激活函数与GPU加速、测试、Visdom可视化）

PyTorch-05神经网络与全连接（Logistic Regression逻辑回归、交叉熵、交叉熵来优化一个多分类的问题、全连接层（MLP网络层）、激活函数与GPU加速、测试（v…

人工智能 2023年7月2日
0065
opencv 之 visual studio 开发环境配置(属性管理器+环境变量一劳永逸方便开发的配置方式)

opencv 之 visual studio 开发环境配置(属性管理器+环境变量一劳永逸方便开发的配置方式) 目录 opencv 之 visual studio 开发环境配置(属…

人工智能 2023年7月19日
0054
【模型复现】自监督图像分类模型—CGAN复现教程

【模型复现】自监督图像分类模型—CGAN复现教程极链AI云注册链接关注极链AI云公众号，学习更多知识！文章目录【模型复现】自监督图像分类模型—CGAN复现教程一、模型详情…

人工智能 2023年7月1日
0048
神经网络模型应用实例SPSS – 典型的神经网络模型 – 神经网络模型的应用

神经网络算法实例说明有哪些？在网络模型与算法研究的基础上，利用人工神经网络组成实际的应用系统，例如，完成某种信号处理或模式识别的功能、构作专家系统、制成机器人、复杂系统控制等等。…

人工智能 2023年7月13日
0080
【语音去噪】基于matlab谱减法+维纳滤波+卡尔曼滤波语音去噪【含Matlab源码 1881期】

⛄一、谱减法+维纳滤波+卡尔曼滤波语音去噪简介 1 维纳滤波算法在传统的去噪算法中,维纳滤波因其操作简单、去噪效果好,被公认为一种经典的去噪算法。语音信号在时域的表示为: yi( …

人工智能 2023年5月23日
00120
深度学习和语音系列教程 3-100：提取音频特征

音频功能音频特征是不包含从语音到文本模型输出的抄本或文本串的特征的语音特征。 [En] Audio features are speech features that do no…

人工智能 2023年5月27日
0085
基于改进的Transformer模型针对时间序列数据进行预测

文章信息文章题为《Enhancing the Locality and Breaking the Memory Bottleneck of Transformer on Time…

人工智能 2023年6月25日
0061

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

数据科学必备Pandas数据分组GroupBy方法汇总

文章目录

大家都在看