python数据分析之Dataframe分组（group by）

2023年8月6日下午3:32 • Python • 阅读 45

Dataframe分组统计group by函数

对数据进行分组统计主要使用Dataframe函数，其功能如下：

根据给定的条件将数据拆分成组。
每个组都可单独应用函数（如sum、mean、std等）。
将结果合并到一个数据结果中。

语法如下：

Dataframe.groupby(by=None,axis=0,level=None,as_index=True,sort=True,group_keys=True,squeeze=False,observed=False)
"""
by:字典，映射，series对象，数组，标签，列表。如果by是一个函数，则对象索引的每个值调用它；如果传递了一个字典或者series对象，则使用该字典或者series对象来确定组。如果传递了数组ndarray，则按照原样式来确定这些组。
axis:axis=1表示行；axis=0表示列，默认值为0
level:表示索引层级，默认为无
as_index:布尔类型，默认为True,返回组标签为索引的对象
sort:对组进行排序，布尔类型，默认为True
group_keys:布尔类型，默认为True,调用apply函数时，将分组键添加到索引以标识片段
squeeze:布尔类型，默认为False,如果可能，减少返回类型的维度，否则返回一致类型
返回值：DataFrameGroupBy,返回包含有关组的信息的groupby对象

"""

2.展示举例数据集

这里我们使用书籍的数据进行展示。

import pandas as pd
pd.set_option('display.max_rows',500)
pd.set_option('display.max_columns',1000)
pd.set_option('display.unicode.east_asian_width',True)

df=pd.read_csv(r"C:\Users\Administrator\Desktop\python-code\Code\04\15\JD.csv",encoding="gbk")
print(df.head(10))

3.根据某一列分组

我们将”一级分类”,”7天点击量”,”订单预定”这3列拿出组成一个新的df ,然后根据”一级分类”进行分组。并统计分组后的求和结果


df1=df[["一级分类","7天点击量","订单预定"]]
print(df1.groupby('一级分类').sum())

这里我们可以看见，被分组的属性会被放到最左边，根据属性内的种类进行统计计算。

4.按照多列进行分组

我们抽取4列组成新的df,并按照2列进行分组


df2=df[["一级分类","二级分类","7天点击量","订单预定"]]
print(df2.groupby(["一级分类","二级分类"]).sum())

这里的分组，会按照”一级分类”进行分组后，再在”二级分类”分组内再进行分组。

如果我们想只获取分组后”7天点击量”的求和结果，我们可以只取这一列。


print(df2.groupby("二级分类")["7天点击量"].sum())

5.对分组数据进行迭代

迭代是指对分组后的数据进行循环操作，查看每一种类型中的具体的结果。


df3=df[["一级分类","7天点击量","订单预定"]]
for name,group in df3.groupby("一级分类"):
    print(name)
    print(group)

上述代码的name是指”一级分类”分组后的值；而group是分组后的数据

如果对多列进行了分组，则需要在for循环中指定多列

key1和key2即是分组后的值


df4=df[["一级分类","二级分类","7天点击量","订单预定"]]
for (key1,key2),group in df4.groupby(["一级分类","二级分类"]):
    print(key1,key2)
    print(group)

6.对分组后的某列或者多列使用聚合函数

主要使用函数agg对分组结果进行聚合运算


print(df3.groupby("一级分类").agg(["mean","sum"]))

可以指定不同列使用不同的聚合效果

如：一列求平均和总和，一列只求总和

print(df3.groupby("一级分类").agg({"7天点击量":['mean','sum'],"订单预定":['sum']}))

7.通过字典和Series对象进行分组统计

这一部分主要就是通过字典或者series将某些类别重新打上标签，然后按照新的标签分类。

如：我们要将北京，上海，广州三个一线城市放在北上广，其他城市各自统计，给他们重新打上标签，然后分组。

通过字典重新标签


df=pd.read_csv(r"C:\Users\Administrator\Desktop\python-code\Code\04\23\JD.csv",encoding="gbk")
df.set_index(['商品名称'],inplace=True)
dicts={"上海出库销量":"北上广",
       "北京出库销量":"北上广",
       "广州出库销量":"北上广",
       "成都出库销量":"成都",
       "武汉出库销量":"武汉",
       "西安出库销量":"西安"}
df5=df.groupby(dicts,axis=1).sum()
print(df5)

通过series对象重新标签


data={"上海出库销量":"北上广",
       "北京出库销量":"北上广",
       "广州出库销量":"北上广",
       "成都出库销量":"成都",
       "武汉出库销量":"武汉",
       "西安出库销量":"西安"}
s1=pd.Series(data)
print(s1)
df6=df.groupby(s1,axis=1).sum()
print(df6)

series的结果：

分组series对象的结果：

结束！

Original: https://blog.csdn.net/weixin_48077303/article/details/115175150
Author: 柳小葱
Title: python数据分析之Dataframe分组（group by）

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/737845/

转载文章受原作者版权保护。转载请注明原作者出处！

python

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

pipx和poerty管理python程序

1. 题引 据官网介绍，pipx &#x…

Python 2023年8月15日
0062
nvidia-smi详解

nvidia-smi详解大多数用户都知道如何检查他们的 CPU 的状态，查看有多少系统内存可用，或者找出有多少磁盘空间可用。相比之下，从历史上看，密切关注 GPU 的运行状况和状…

Python 2023年8月1日
0062
网安等保-Linux服务器之最新Ubuntu-22.04-LTS系统内核优化与安全加固配置脚本使用分享

关注「 WeiyiGeek」公众号设为「特别关注」每天带你玩转网络安全运维、应用开发、物联网IOT学习！希望各位看友【关注、点赞、评论、收藏、投币】，助力每一个梦想。本章目…

Python 2023年6月12日
0080
用python做问答测试_用pytest编写一个单元测试来测试

我写了一个小的服务器聊天，做非常基本的事情，我想围绕它写测试。不幸的是，我很迷茫。我需要一些帮助才能走上正轨。在我有一个名为Server()的类，它包含一个名为bind_sock…

Python 2023年9月14日
0053
pygame只能编写游戏_通过游戏来学Python–微信飞机大战4

通过游戏来学Python–微信飞机大战1 通过游戏来学Python–微信飞机大战2 通过游戏来学Python–微信飞机大战3 子弹飞得够久了，就…

Python 2023年9月23日
0044
Github Action 一键部署Flask 应用

本文介绍如何使用github action 快速制作flask应用cicd流程。git地址在cicd-flask-example 文章目录 * – 什么是WSGI Se…

Python 2023年8月14日
0053
Python中数据类型的转换

Python中数据类型的转换原创已注销2022-07-21 17:59:21©著作权文章标签类型转换文章分类 Python 后端开发 ©著作权归作者所有：来自51CTO博…

Python 2023年5月25日
0062
Pygame入门(1)

pygame Pygame是一个免费且开源的跨平台Python多媒体库，主要用作游戏开发，其内部许多核心代码都是使用C语言甚至汇编语言编写的，部分代码是使用Python编写的，这使…

Python 2023年9月18日
0030
第十四届蓝桥杯模拟赛第一期试题【Java解析】

目录 A 二进制位数问题描述答案提交参考答案解析 B 晨跑问题描述答案提交参考答案解析 C 调和级数问题描述答案提交参考答案解析 D 山谷问题描述答案提…

Python 2023年9月27日
0035
两行Python代码实现自动打开百度并输入搜索词，超简单

在群里面最常见的一句话就是，本群已和百度达成深度合作，有问题直接找百度即可！好家伙~ 那我们今天就来试试，用Python自动打开百度找答案！涉及知识点基础语法路由跳转 ht…

Python 2023年11月1日
0053
必须要会的文件操作对象File，python文件读写操作利器！

一般在编程中的文件操作就是将操作系统中的文件作为文件对象打开之后，对其进行读写等操作后保存的过程。python中提供的这个文件对象File对象。【阅读全文】 File对象函数 ‘…

Python 2023年5月25日
0093
【python】大写金额转换为数字的简单算法

1.背景项目中遇到的人工填报资本额需要转换为数字。目前，只支持整个元素，不考虑角度。 [En] Artificially filled capital amounts encou…

Python 2023年5月24日
0079
python pandas模块的功能_Python数据分析模块pandas用法详解

本文实例讲述了Python数据分析模块pandas用法。分享给大家供大家参考，具体如下：一介绍 pandas(Python Data Analysis Library)是基于n…

Python 2023年8月7日
0054
django-ModelForm

Django-ModelForm 耦合度高，不适用于大程序，适用于小程序功能集成了Django-Models和Django-Form 数据库操作表单数据验证 HTML上次提交的…

Python 2023年6月11日
0082
用Python中的Numpy实现简单高效的扑克牌API（附代码）

用Python中的Numpy实现简单高效的扑克牌API 扑克牌可以用字典或者列表来表示，但是这样的话会浪费很多的空间。因此，本项目将使用 Numpy来实现，这样的话能保证性能的情况…

Python 2023年8月25日
0052
Apscheduler结合flask进行动态任务管理

Apscheduler是一个轻量级的 Python 定时任务调度框架。APScheduler 支持三种调度任务：固定时间间隔，固定时间点（日期），Linux 下的 Cronta…

Python 2023年8月12日
0042

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31