pandas python groupby_Python学习笔记——pandas库中groupby的相关操作

2023年8月22日上午1:50 • Python • 阅读 44

近日学习pandas时，对于其中的groupby()函数以及相关的一些操作查了一些资料，现总结一下以供后面翻阅

我觉得这个里面比较重要的还是对

组对象的遍历

，以及

get_group()操作

准备：数据及pandas

先来导入数据

import pandas as pd

import numpy as np

df = pd.DataFrame({‘A’: [‘foo’, ‘bar’, ‘foo’, ‘bar’,

‘foo’, ‘bar’, ‘foo’, ‘foo’],

‘B’: [‘one’, ‘one’, ‘two’, ‘three’,

‘two’, ‘two’, ‘one’, ‘three’],

‘C’: np.random.randn(8),

‘D’: np.random.randn(8)})

输出结果：

pandas python groupby_Python学习笔记——pandas库中groupby的相关操作

groupby()介绍

groupby()是一个主要用于分组的函数，可以用于拆分、转换、合并等等。下面根据练习时所用到的功能进行介绍

1、groupby对象属性

我们对dataframe使用groupby函数，返回的结果不再是一个dataframe，而是一个字典。并且无法直接将groupby()之后的结果显示出来,需要借助一些方法：

print(df.groupby(‘A’))

print(df.groupby(‘A’).groups)

{‘bar’: Int64Index([1, 3, 5], dtype=’int64′),

‘foo’: Int64Index([0, 2, 4, 6, 7], dtype=’int64′)}

2、基本操作

可以进行求和、求均值等一系列操作；亦可称为分组总汇

arrays = [[‘bar’, ‘bar’, ‘baz’, ‘baz’, ‘foo’, ‘foo’, ‘qux’, ‘qux’],

[‘one’, ‘two’, ‘one’, ‘two’, ‘one’, ‘two’, ‘one’, ‘two’]]

index = pd.MultiIndex.from_arrays(arrays, names=[‘first’, ‘second’])

df = pd.DataFrame({‘A’: [1, 1, 1, 1, 2, 2, 3, 3],

‘B’: np.arange(8)},

index=index)

firstsecond

barone10

two11

bazone12

two13

fooone24

two25

quxone36

two37

下面这个是按照second和A列进行分组:

解释：比如对于B列中第一个数2，他是有one 1所对应的两个数0 和 2相加得到的，因为是.sum()嘛。

df.groupby([pd.Grouper(level=1), ‘A’]).sum()

输出结果：

secondA

one12

two14

3、遍历组

有了GroupBy对象，就可以对其进行遍历，其功能类似于itertools.groupby()：

df = pd.DataFrame({‘A’: [‘foo’, ‘bar’, ‘foo’, ‘bar’,

‘foo’, ‘bar’, ‘foo’, ‘foo’],

‘B’: [‘one’, ‘one’, ‘two’, ‘three’,

‘two’, ‘two’, ‘one’, ‘three’],

‘C’: np.random.randn(8),

‘D’: np.random.randn(8)})

grouped = df.groupby(‘A’)

for name, group in grouped:

print(name)

print(group)

输出结果为：

bar

A B C D

1 bar one 0.182209 -2.398974

3 bar three 1.140349 0.185708

5 bar two -1.153971 -0.581224

foo

A B C D

0 foo one 0.153283 -0.125286

2 foo two 0.555652 -1.174632

4 foo two -1.820088 1.996878

6 foo one 1.218933 0.387911

7 foo three 1.624191 -0.007450

4、选择组(get_group()函数)

4.1 可以使用get_group()函数得到某个组

grouped.get_group(‘bar’)

输出结果：

A B C D

1barone 0.182209-2.398974

3barthree1.1403490.185708

5bartwo -1.153971-0.581224

4.2 也可以选择多个

df.groupby([‘A’, ‘B’]).get_group((‘bar’, ‘one’))

输出结果

ABCD

1barone0.182209-2.398974

欢迎各位大佬对本文提出改进意见

参考

pandas的groupby函数

https://pandas.pydata.org/pandas-docs/stable/user_guide/groupby.html#groupby-object-attributes

Original: https://blog.csdn.net/weixin_39713538/article/details/113471787
Author: weixin_39713538
Title: pandas python groupby_Python学习笔记——pandas库中groupby的相关操作

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/756240/

转载文章受原作者版权保护。转载请注明原作者出处！

python

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

matplotlib 笔记 imshow

将数据显示为图像，一般放到在 2D 常规栅格上。输入可以是实际的 RGB(A) 数据，也可以是 2D 标量数据，它们将被渲染为伪彩色图像。为了显示灰度图像，使用参数 cmap=…

Python 2023年9月1日
0040
Python游戏海龟模块教程说明书与案例若干gameturtle模块说明书与案例

gameturtle模块是本人开发的进行python趣味编程的一个模块，不敢独自享用，需要的请在以下网址下载, 链接：https://pan.baidu.com/s/1i-bl7e…

Python 2023年9月22日
0061
LDA主题模型简介及Python实现

一、LDA主题模型简介 LDA主题模型主要用于推测文档的主题分布，可以将文档集中每篇文档的主题以概率分布的形式给出根据主题进行主题聚类或文本分类。 LDA主题模型不关心文档中单词的…

Python 2023年7月31日
0037
Python ❀ 类

1、创建与使用 1.1 创建一个简单的类 1.2 根据类创建实例 1.2.1 访问属性 1.2.2 调用方法 1.2.3 创建多个实例…

Python 2023年5月25日
0089
初识Flask框架

Flask介绍 Flask诞生于2010年，是使用pytho语言基于Werkzeug工具箱编写的轻量级web开发框架 Flask本身相当于一个内核，其他几乎所有的功能都要用到扩展(…

Python 2023年8月11日
0045
用python制作炫酷吊炸天多子图，matplotlib之subplot()的应用

前言：为了让自己的图片更加炫酷，我们今天请到了嘉宾subplot()函数，可以让我们实现多子图的效果。数据采用的是18年美赛E题的数据。在进行标准化处理以后进行的可视化。先上效果…

Python 2023年9月5日
0081
【完虐算法】「字符串-逆序」全复盘

大家好！ [TencentCloudSDKException] code:FailedOperation.ServiceIsolate message:service is sto…

Python 2023年6月3日
0069
python_字段类型转换&类型替换

python_字段类型转换&类型替换原创六mo神剑2022-07-18 15:03:30博主文章分类：Python ©著作权文章标签字段数据类型转换文章分类 …

Python 2023年5月25日
0065
使用scrapy框架爬取某招聘网站

这期我们简单介绍一下scrapy框架，并使用该框架做一个小小的案例初识scrapy * – 一、简单介绍scrapy框架 – 二、简单介绍如何使用scra…

Python 2023年10月2日
0032
Python-爬虫基础八-urllib的一个类型和六个方法

Urllib 库是 Python 内置的 HTTP 请求库，urllib 模块提供的上层接口，使访问 www 和 ftp 上的数据就像访问本地文件一样，并且它也是requests的…

Python 2023年6月12日
0045
PyCharm本地连接远程conda虚拟环境(Ubuntu+TensorFlow+Cuda)进行代码调试+Jupyter测试

目录 PyCharm本地连接远程conda虚拟环境(TensorFlow)进行代码调试 * 说明 1. GCP创建Ubuntu+选择GPU 2.示例并远程连接 2. 安装minic…

Python 2023年9月8日
0051
Django 创建api的demo （不使用RESTFramework）

目录 1.新建项目和app： 2.创建模型操作类 3.在settings.py中配置mysql数据库 4.数据库迁移 5.在stpapi>view.py中编写如下代码： 6….

Python 2023年8月5日
0050
【JavaEE初阶】第三节.多线程基础篇

作者简介：大家好，我是未央；博客首页：未央.303系列专栏： JavaEE初阶每日一句：人的一生，可以有所作为的时机只有一次，那就是现在！！！! 目录目录前言一、认识线程 …

Python 2023年11月6日
0031
pythongui界面直方图_Python pyplot可视化直方图的绘制,pythonpyplot,之,柱状图

可视化操作是工程师必备技能。在算法开发中，可视化能够辅助调试。本文对pyplot绘制柱形图做记录。今天我欲对se_net中权重的学习情况进行可视化研究，从而判断出哪个通道/特征占…

Python 2023年8月9日
0048
cocos 制作微信箫游戏_使用Pygame制作微信打飞机游戏PC版

前一阵子看了一篇文章：青少年如何使用Python开始游戏开发。看完照葫芦画瓢写了一个，觉得挺好玩儿，相当于简单学了下Pygame库。这篇文章是个12岁小孩儿写的，国外小孩儿真心N…

Python 2023年9月25日
0029
pandas 如何把时间转成index_如何在pandas dataframe中将int索引转换为日期索引？(How to convert int index to dates index in pa…

I’ve created a dataframe in python using pandas. The index used is a series of times…

Python 2023年8月20日
0060

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

pandas python groupby_Python学习笔记——pandas库中groupby的相关操作

大家都在看