Python函数:groupby()

2023年8月19日下午4:52 • Python • 阅读 65

形式：

DataFrame.groupby(by=None, axis=0, level=None, as_index=True, sort=True, group_keys=True, squeeze=NoDefault.no_default, observed=False, dropna=True)

分组操作涉及到分离对象、应用函数和组合结果的一些组合。这可以用于对大量数据进行分组，并计算对这些分组的操作。

by：用于确定 groupby 的组。如果 by 是一个函数，它会在对象索引的每个值上调用。如果传递了 dict 或 Series，则 Series 或 dict VALUES 将用于确定组（Series 的值首先对齐；参见 .align() 方法）。如果传递了长度等于所选轴的列表或 ndarray，则按原样使用这些值来确定组。一个标签或标签列表可以通过 self 中的列传递给 group。请注意，元组被解释为（单个）键。
axis：沿行 (0) 或列 (1) 拆分。
level：如果轴是MultiIndex(层次化)，则按一个或多个特定级别进行分组。
as_index：对于聚合输出，返回具有组标签作为索引的对象。仅与DataFrame输入相关。as index=False是有效的sql风格的分组输出。
sort：对组键进行排序。关闭此功能可获得更好的性能。请注意，这不会影响每组内的观察顺序。 Groupby 保留每个组内的行顺序。
group_keys：当调用apply时，将组键添加到index以识别片段。
squeeze：如果可能，降低返回类型的维数，否则返回一致的类型。
observed：这仅适用于任何 groupers 是分类的。如果为真：仅显示分类分组的观察值。如果为 False：显示分类分组的所有值。
dropna：如果为 True，并且组键包含 NA 值，则 NA 值连同行/列将被删除。如果为 False，NA 值也将被视为组中的键。

（上面的看不懂没事，我也看不懂，下面有例子）

在终端运行

>>> import pandas as pd
>>> df = pd.DataFrame({'Animal': ['Falcon', 'Falcon',
...                               'Parrot', 'Parrot'],
...                    'Max Speed': [380., 370., 24., 26.]})
>>> df
   Animal  Max Speed
0  Falcon      380.0
1  Falcon      370.0
2  Parrot       24.0
3  Parrot       26.0
>>> df.groupby(['Animal']).mean()   #&#x6309;&#x7167;Animal&#x5217;&#x7684;&#x503C;&#x8FDB;&#x884C;&#x5206;&#x7EC4;,&#x5206;&#x7EC4;&#x540E;&#x7684;falcon&#x5BF9;&#x5E94;&#x7684;MaxSpreed&#x662F;
                                     &#x539F;&#x6765;falcon&#x5BF9;&#x5E94;&#x7684;MaxSpreed&#x7684;&#x5747;&#x503C;
        Max Speed
Animal
Falcon      375.0
Parrot       25.0

我们可以使用level参数对层次索引的不同级别进行分组：

>>> arrays = [['Falcon', 'Falcon', 'Parrot', 'Parrot'],
...           ['Captive', 'Wild', 'Captive', 'Wild']]
>>> arrays
[['Falcon', 'Falcon', 'Parrot', 'Parrot'], ['Captive', 'Wild', 'Captive', 'Wild']]
>>> index = pd.MultiIndex.from_arrays(arrays, names=('Animal', 'Type'))  #&#x521B;&#x5EFA;&#x591A;&#x5C42;&#x6B21;&#x7D22;&#x5F15;
>>> index
MultiIndex([('Falcon', 'Captive'),
            ('Falcon',    'Wild'),
            ('Parrot', 'Captive'),
            ('Parrot',    'Wild')],
           names=['Animal', 'Type'])                            #&#x8F93;&#x51FA;&#x770B;&#x770B;
>>> df = pd.DataFrame({'Max Speed': [390., 350., 30., 20.]},
...                   index=index)
>>> df
                Max Speed
Animal Type
Falcon Captive      390.0
       Wild         350.0
Parrot Captive       30.0
       Wild          20.0
>>> df.groupby(level=0).mean()               #&#x5BF9;&#x4E00;&#x5C42;&#x7D22;&#x5F15;&#x505A;&#x5206;&#x7EC4;
        Max Speed
Animal
Falcon      370.0
Parrot       25.0
>>> df.groupby(level="Type").mean()          #&#x5BF9;Type&#x5C42;&#x7D22;&#x5F15;&#x505A;&#x5206;&#x7EC4;&#xFF0C;&#x81EA;&#x5DF1;&#x6307;&#x5B9A;&#x7684;&#xFF0C;&#x76F8;&#x5F53;&#x4E8E;level=1
                                                  &#x7684;&#x7ED3;&#x679C;
         Max Speed
Type
Captive      210.0
Wild         185.0
>>> df.groupby(level=1).mean()
         Max Speed
Type
Captive      210.0
Wild         185.0

我们可以通过设置dropna参数来选择是否将NA包含在组键（理解为行）中，默认设置为True。

>>> l = [[1, 2, 3], [1, None, 4], [2, 1, 3], [1, 2, 2]]
>>> l
[[1, 2, 3], [1, None, 4], [2, 1, 3], [1, 2, 2]]
>>> df = pd.DataFrame(l, columns=["a", "b", "c"])
>>> df
   a    b  c
0  1  2.0  3
1  1  NaN  4
2  2  1.0  3
3  1  2.0  2
>>> df.groupby(by=["b"]).sum()              # #dropna&#x9ED8;&#x8BA4;&#x4E3A;true,&#x7EC4;&#x952E;&#x4E2D;&#x4E0D;&#x5305;&#x542B;NaN
     a  c
b
1.0  2  3
2.0  2  5
>>> df.groupby(by=["b"], dropna=False).sum()
     a  c
b
1.0  2  3
2.0  2  5
NaN  1  4

也可以是字母

>>> l = [["a", 12, 12], [None, 12.3, 33.], ["b", 12.3, 123], ["a", 1, 1]]
>>> df = pd.DataFrame(l, columns=["a", "b", "c"])
>>> l
[['a', 12, 12], [None, 12.3, 33.0], ['b', 12.3, 123], ['a', 1, 1]]
>>> df
      a     b      c
0     a  12.0   12.0
1  None  12.3   33.0
2     b  12.3  123.0
3     a   1.0    1.0
>>> df.groupby(by="a").sum()
      b      c
a
a  13.0   13.0
b  12.3  123.0
>>> df.groupby(by="a", dropna=False).sum()
        b      c
a
a    13.0   13.0
b    12.3  123.0
NaN  12.3   33.0

Original: https://blog.csdn.net/Ajdidfj/article/details/123174847
Author: 小小白2333
Title: Python函数:groupby()

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/754094/

转载文章受原作者版权保护。转载请注明原作者出处！

python

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

【Python】秀人集-写真集-爬虫-2.0

好久不见呀，各位。[/坏笑] 自从上一篇文章发表以来，已经有很长时间了，所以我现在将带着承诺的2.0版本出来。毕竟，评论区已经开始蜂拥而至，不能再拖延了。 [En] It has …

Python 2023年5月23日
00101
python fontproperties_fontproperties

Matplotlib设置中文2021-02-12 18:03:18 方法一：fontproperties 适用于Windows & Linux & Mac 主要用于…

Python 2023年9月4日
0041
python中reset函数_Python pandas.DataFrame.reset_index函数方法的使用

DataFrame.reset_index(level=None, drop=False, inplace=False, col_level=0, col_fill=”…

Python 2023年8月6日
0043
Python中字符串格式化输出

Python中字符串格式化有三种方式，分别是 format，% 以及 f (3.7以上版本)。一. format 格式：'{}’.format() 1，format(…

Python 2023年5月24日
0058
Scrapy 项目 Item 数据基础使用

回答1：是一款功能强大的Python网络爬虫框架，可用于抓取和提取网页。以下是爬取和解析的一些基本步骤： 1. 创建一个：在命令行中 startproject projec…

Python 2023年10月3日
0034
BUUCTF(5)

[CISCN 2019 初赛]Love Math 1 error_reporting(0); if(!isset($_GET[‘c’])){ show_source(__FILE_…

Python 2023年8月15日
0058
pandas如何进行优雅的列转行、行转列？

一、列转行 1、背景描述在日常处理数据过程中，你们可能会经常遇到这种类型的数据：而我们用pandas进行统计分析时，往往需要将结果转换成以下类型的数据： ; 2.方法描述准备数…

Python 2023年8月18日
0036
盘点JAVA中基于CAS实现的原子类, 你知道哪些？

前言 JDK中提供了一系列的基于CAS实现的原子类，CAS 的全称是 Compare-And-Swap，底层是 lock cmpxchg指令，可以在单核和多核 CPU 下都能够保证…

Python 2023年10月13日
0049
es 文本搜索

match, match_phrase, match_phrase_prefix 三个都会对查询词和文本进行分词后进行查询 match只要查询词分词结果和源数据分词结果匹配，就可以…

Python 2023年6月12日
0058
Flask框架下的sqlalchemy.exc.OperationalError: (pymysql.err.OperationalError) (1045)问题

项目场景：用flask框架搭起项目，连接数据库中出现1045的问题。问题描述 提示：确&…

Python 2023年8月9日
0063
pytest学习常用三方模块或库

pip 安装可以使用镜像来加速，例如： pip install 模块名 -i https://pypi.douba…

Python 2023年9月10日
0041
python爬虫–scrapy（初识）

文章目录 python爬虫–scrapy（初识） * scrapy环境安装 scrapy基本使用糗事百科数据解析持久化存储 – 基于终端指令的持久化存储…

Python 2023年10月3日
0026
基于阈值的7种图像分割方法以及Python实现

阈值分割是根据图像的灰度特征按照设定的阈值将图像分割成不同的子区域。简单的理解就是先将图像进行灰度处理，然后根据灰度值和设定的灰度范围将图像灰度分类。比如0-128的是一类，129…

Python 2023年8月27日
0039
CTPN+CRNN算法端到端实现文字识别的实战开发

OCR介绍光学字符识别（英语：Optical Character Recognition，OCR）是指对文本资料的图像文件进行分析识别处理，获取文字及版面信息的过程。发展时间较长…

Python 2023年10月28日
0026
【已解决】bash: conda: command not found

在Linux系统中安装完anaconda3或者miniconda3后，输入conda命令却返回 bash: conda: command not found。首先我尝试了网络上流…

Python 2023年9月7日
0023
pytest框架（2）fixture、conftest、hook、pytest.ini、allure

Fixture pytest fixture 官网：https://docs.pytest.org/en/stable/fixture.html#fixture Fixture是在…

Python 2023年9月11日
0063

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

Python函数:groupby()

大家都在看