[Pandas]Groupby函数

2023年8月9日上午3:55 • Python • 阅读 42

官方文档语法格式：

DataFrame.groupby(by=None, axis=0, level=None, as_index=True, sort=True, group_keys=_NoDefault.no_default, squeeze=_NoDefault.no_default, observed=False, dropna=True)

其中有很多参数，具体参数含义可参考官方文档：

作用就是对DataFrame进行分组，可以单类分组，也可以多类分组

使用单特征对数据进行分类：

in:
import pandas as pd
import numpy as np
df = pd.DataFrame({'key1':list('aabba'),'key2':[1,2,1,2,1],'data1':np.random.randn(5),'data2':np.random.randn(5)})
df

out:
    key1    key2    data1   data2
0   a   1   -1.682936   0.888643
1   a   2   -1.620872   -0.071639
2   b   1   -0.556014   0.222129
3   b   2   -0.643906   0.067793
4   a   1   -0.189291   0.411055

in:
grouped = df.groupby(['key1'])
for i,j in grouped:
    print(i)
    print(j)

out:
a
  key1  key2     data1     data2
0    a     1 -1.682936  0.888643
1    a     2 -1.620872 -0.071639
4    a     1 -0.189291  0.411055
b
  key1  key2     data1     data2
2    b     1 -0.556014  0.222129
3    b     2 -0.643906  0.067793

注意：groupby函数产生的结果是个迭代器，若打印输出data.groupby([‘分组字段’])的结果可能会运行处以下结果：

in:
df.groupby(['key1'])

out:
<pandas.core.groupby.generic.dataframegroupby object at 0x00000235860555b0></pandas.core.groupby.generic.dataframegroupby>

要输出具体的结果详情可以用for循环读取（参考下文举例中的代码），其中每个分组结果中包含分组名称（下文举例代码中：name）和分组记录（下文举例代码中：group）

根据多特征进行划分

in:
grouped2 = df.groupby(['key1','key2'])
for name,group in grouped2:
    print(f"&#x5212;&#x5206;&#x7684;&#x4F9D;&#x636E;&#x4E3A;&#xFF1A; {name}")
    print(group)

out:
&#x5212;&#x5206;&#x7684;&#x4F9D;&#x636E;&#x4E3A;&#xFF1A; ('a', 1)
  key1  key2     data1     data2
0    a     1 -1.682936  0.888643
4    a     1 -0.189291  0.411055
&#x5212;&#x5206;&#x7684;&#x4F9D;&#x636E;&#x4E3A;&#xFF1A; ('a', 2)
  key1  key2     data1     data2
1    a     2 -1.620872 -0.071639
&#x5212;&#x5206;&#x7684;&#x4F9D;&#x636E;&#x4E3A;&#xFF1A; ('b', 1)
  key1  key2     data1     data2
2    b     1 -0.556014  0.222129
&#x5212;&#x5206;&#x7684;&#x4F9D;&#x636E;&#x4E3A;&#xFF1A; ('b', 2)
  key1  key2     data1     data2
3    b     2 -0.643906  0.067793

对DataFrame中的部分数据进行划分

in:
for name,group in df[['data1','data2','key1']].groupby(['key1']):
    print(name)
    print(group)

out:
a
      data1     data2 key1
0 -1.682936  0.888643    a
1 -1.620872 -0.071639    a
4 -0.189291  0.411055    a
b
      data1     data2 key1
2 -0.556014  0.222129    b
3 -0.643906  0.067793    b

Original: https://blog.csdn.net/m0_73598509/article/details/127171250
Author: 起风了xxx
Title: [Pandas]Groupby函数

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/743862/

转载文章受原作者版权保护。转载请注明原作者出处！

python

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

js实现输入内容的实时字数统计

效果输入内容的同时，字数会相应同步改变实现方式使用jQuery实现的，比较简单。 $(‘#’).bind(‘input propertychange’, function (…

Python 2023年6月12日
0068
python list和series转换dataframe_[Python]dataframe Series 1的创建方法与其他数据类型listarray之间的转换,PythonDataFrame,…

Python中最常用的数据形式莫过于DataFrame了，基本上每次使用多多少少都要百度一下，终于想起了写一个DataFrame的系列文章，把DataFrame使用过的一些方法做一…

Python 2023年8月6日
0038
WARNING: Ignoring https://dl-cdn.alpinelinux.org/alpine/v3.15/main: Permission denied

WARNING: Ignoring https://dl-cdn.alpinelinux.org/alpine/v3.15/main: Permission denied dock…

Python 2023年8月14日
0044
pandas使用read_excel函数读取excel表格数据为dataframe、如果设置sheet_name参数为None则读取所有的表单数据并返回dataframe字典

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。 Original: https://blo…

Python 2023年8月8日
0050
python 数据清洗难度_Python数据清洗

检测与处理重复值 pandas提供了一个名为drop_duplicates的去重方法。该方法只对DataFrame或者Series类型有效。这种方法不会改变数据原始排列，并且兼具代…

Python 2023年8月8日
0060
SQL抽象语法树及改写场景应用

1 背景我们平时会写各种各样或简单或复杂的sql语句，提交后就会得到我们想要的结果集。比如sql语句，”select * from t_user where user…

Python 2023年10月19日
0042
Python报错ValueError: arrays must all be same length

遇到这样的报错 ValueError: All arrays must be of the same length 问题分析和解决方式，如下： import pandas as p…

Python 2023年8月17日
0035
MongoDB – 入门指南

组件结构在 MongoDB 中，核心进程主要包含了 mongod、mongos 和 mongosh 三个。其中最主要的是 mongod 程序，其在不同的部署方案中（单机部署、副…

Python 2023年10月15日
0029
解决github图片不显示的问题

修改hosts C:\Windows\System32\drivers\etc\hosts 在文件末尾添加： GitHub Start 192.30.253.112 Build s…

Python 2023年6月3日
0067
中文NER的那些事儿6. NER新范式！你问我答之MRC详解&代码实现

就像Transformer带火了”XX is all you need”的论文起名大法，最近也看到了好多”Unified XX Framewor…

Python 2023年10月26日
0041
Django教程（为什么选择Django框架）

Web 开发是 Python 语言应用领域的重要部分，也是工作岗位最多的领域。如果你对基于 Python 的 Web 开发有兴趣，正打算开始学习使用 Python 做 Web 开发…

Python 2023年8月15日
0045
numpy 最小二乘拟合一元线性回归与多元线性回归原理与代码

需要代码的可以直接跳到最后一章，我们这里会进行一些数学推导一、相关系数相关系数是对变量之间关系的密切程度的度量，对两个变量之间线性相关程度的度量称为简单相关系数，若相关系数是根…

Python 2023年8月26日
0048
爬虫框架scrapy–6middlewares下载中间件（动态更换ip和USER_AGENT）

一、middlewares下载中间件的基本介绍 1、使用方法∶ 编写一个Downloader Middlewares和我们编写一个pipeline 一样，定义一个类，然后在 set…

Python 2023年10月5日
0037
【目标检测-YOLO】YOLOv5-v5.0-yolov5s网络架构详解（第一篇）

1. 前言源码：GitHub – ultralytics/yolov5 at v5.0 由于YOLO v5 代码库在持续更新，如上图，有多个版本，每个版本的网络结构不…

Python 2023年10月26日
0042
Windows10+python3.6+cuda11.0+pythorch1.9.0部署Detectron2环境心得分享

如图所示，经过不懈的努力终于将Detectron2部署成功！！ 1.环境准备 1.1安装Anaconda 1.2安装 Visual Studio 2019 安装C++和python…

Python 2023年9月9日
0053
Python统计学06——分类变量分析

参考书目：贾俊平. 统计学——Python实现. 北京: 高等教育出版社，2021. 方差分析的定义是检验分类型自变量对数值型因变量是否有显著性影响。分类的变量检验，一个分类变量…

Python 2023年8月29日
0042

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

[Pandas]Groupby函数

大家都在看