pandas5 数据分组与聚合

2023年8月20日下午5:02 • Python • 阅读 45

5.数据分组与聚合

1.groupby方法： DataFrame.groupby(by=None, axis=0, level=None, as_index=True, sort=True, group_keys=True, squeeze=False)

参数名称参数说明by可以传入函数、字典、Series等，用于分组的依据条件axis0或者1，表示操作的轴方向默认按列操作，取1按行操作level接收int或者索引名，代表标签所在的级别，默认Noneas_index接收boolean，表示聚合后的聚合标签是否以DataFrame的索引输出，默认Truesort接收boolean，对分组依据和分组标签排序，默认Truegroup_keys接收boolean，表示是否显示分组标签的名称，默认Truesqueeze接收Boolean，表示是否在允许情况下对数据进行降维操作，默认False

参数by，如果传入函数，则对索引进行计算并分组；如果传入字典或者Series，则字典或者Series的值作为分组依据；如果传入Numpy数组，则数据元素作为分组依据；如果传入字符串或者字符串列表，则用这些字符串所代表的字段作为分组依据。

数据分组之后返回的是一个groupby对象，可以调用该对象的方法如size返回一个含有分组大小的Series。


import numpy as np
import pandas as pd

df = pd.DataFrame({
    'key1':['a','a','b','b','a'],
    'key2':[1,0,1,1,0],
    'data1':np.random.randn(5),
    'data2':np.random.randn(5)
})
print(df)
grouped = df['data1'].groupby(df['key1'])
print(grouped.size())
print(grouped.mean())
  key1  key2     data1     data2
0    a     1  0.410518  0.204681
1    a     0 -0.558132 -0.008501
2    b     1 -0.008334 -1.935630
3    b     1 -0.481743  0.775196
4    a     0  0.597605  0.561882
key1
a    3
b    2
Name: data1, dtype: int64
key1
a    0.149997
b   -0.245038
Name: data1, dtype: float64

2.按列名分组：DataFrame数据的列索引名可以作为分组键，但是用于分组的对象必须是DataFrame本身。不然会报错找不到索引名称。


grouped1 = df.groupby('key1').size()
grouped2 = df.groupby('key1').mean()
print(grouped1)
grouped2
key1
a    3
b    2
dtype: int64

key2    data1   data2
key1
a   0.333333    0.149997    0.252688
b   1.000000    -0.245038   -0.580217

3.按列表或元组分组：分组键还可以是和DataFrame行数相等的列表或者元组，相当于把列表或者元组当成DataFrame的一列，然后分组。


w = ['w','w','y','w','y']
df.groupby(w).sum()

key2    data1   data2
w   2   -0.629356   0.971377
y   1   0.589272    -1.373748

4.按字典分组：如果原始的DataFrame中分组信息难以确定或不存在，则可以通过字典结构定义一个分组信息。


df = pd.DataFrame(np.random.normal(size=(6,5)), index=['a','b','A','B','c','C'])
print(df)
dic = {
    "a":'one',
    "b":'two',
    "c":'three',
    "A":'one',
    "B":'two',
    "C":'three'
}
x = df.groupby(dic)
print(x.sum())

          0         1         2         3         4
a -0.422562  1.962075 -0.489384 -1.304302 -1.109478
b  1.134703 -0.358548 -1.373025  0.851012 -0.302279
A -0.196233 -0.192463  0.286070  0.872550 -0.835654
B -0.038677 -0.130829 -0.599642 -0.201865 -1.849057
c -0.033203 -0.512046 -0.414564  0.516591  1.191699
C -1.145768  0.176744 -0.160164  1.435075 -0.124890
              0         1         2         3         4
one   -0.618795  1.769613 -0.203314 -0.431753 -1.945131
three -1.178971 -0.335301 -0.574728  1.951666  1.066808
two    1.096026 -0.489377 -1.972667  0.649148 -2.151336

5.按函数分组：类似于字典，通过映射关系来进行分组


def judge(x):
    if x>=0:
        return 'a'
    else:
        return 'b'
df = pd.DataFrame(np.random.randn(4,4))
print(df)
print(df[3].groupby(df[3].map(judge)).sum())
          0         1         2         3
0  0.714710 -1.180971  0.177371  1.257526
1 -0.465390  0.822470  1.767948  0.740839
2  0.194928  0.658354 -0.053870 -0.657892
3  1.001120 -1.195080  1.122340 -1.813876

a    1.998365
b   -2.471768
Name: 3, dtype: float64

1.聚合函数： 在聚合运算中，空值不参加计算。

函数使用说明count计数sum求和mean平均值median中位数std、var无偏标准差和方差min、max最小、最大值prod求积first、last第一个和最后一个值

2.agg方法实现聚合数据：支持对每个分组应用某个函数。能直接对DataFrame进行函数应用操作。


data = pd.read_excel('D:\python\数据分析与可视化\第四章：pandas统计分析基础\data\\testdata.xls')
print(data.head())
print('求当前数据的各项统计量：\n',data[['淋巴细胞计数','白细胞计数']].agg([np.sum, np.mean]))

print('求个字段的不同统计量：\n',data.agg({'淋巴细胞计数':np.mean, '白细胞计数':np.std}))

print('计算不同字段不同数目的统计量：\n',data.agg({'淋巴细胞计数':np.mean, '白细胞计数':[np.std, np.mean]}))

print('统计不同性别人群的血小板计数：\n',data.groupby('性别')['血小板计数'].agg(np.mean))

print('统计不同性别人群的血小板计数：\n',data.groupby('性别',as_index=False)['血小板计数'].agg(np.mean))

   序号  性别            身份证号 是否吸烟 是否饮酒 开始从事某工作年份  体检年份  淋巴细胞计数  白细胞计数  细胞其它值  \
0    1  女  ****1982080000    否    否     2009年  2017     2.4    8.5    NaN
1    2  女  ****1984110000    否    否     2015年  2017     1.8    5.8    NaN
2    3  男  ****1983060000    否    否     2013年  2017     2.0    5.6    NaN
3    4  男  ****1985040000    否    否     2014年  2017     2.5    6.6    NaN
4    5  男  ****1986040000    否    否     2014年  2017     1.3    5.2    NaN

   血小板计数
0  248.0
1  300.0
2  195.0
3  252.0
4  169.0
求当前数据的各项统计量：
            淋巴细胞计数        白细胞计数
sum   4280.270000  6868.008100
mean     3.849164     6.176266
求个字段的不同统计量：
 淋巴细胞计数     3.849164
白细胞计数     12.043418
dtype: float64
计算不同字段不同数目的统计量：
         淋巴细胞计数      白细胞计数
mean  3.849164   6.176266
std        NaN  12.043418
统计不同性别人群的血小板计数：
 性别
女    212.687636
男    194.727417
Name: 血小板计数, dtype: float64
统计不同性别人群的血小板计数：
   性别       血小板计数
0  女  212.687636
1  男  194.727417

1.transform方法：将运算分不到每一行


data.groupby('性别')['血小板计数'].transform('mean').sample(5)

915     194.727417
1039    194.727417
1062    194.727417
95      194.727417
416     212.687636
Name: 血小板计数, dtype: float64

2.apply方法：类似于agg方法，可以将函数应用于每一列


data.groupby(['性别','是否吸烟'])['血小板计数'].apply(np.mean)

性别  是否吸烟
女   否       212.133188
    是       297.333333
男   否       194.236749
    是       195.210175

groupby之后直接 .reset_index()可以得到一个没有多级索引的DataFram，之后可以通过 df.rename({‘old_col1’:‘new_col1’,‘old_col2’:‘new_col2’,…})重命名

df1= df.groupby([‘date’])[‘price’].agg({‘sum’,‘count’}).reset_index()

Original: https://blog.csdn.net/qq_43636709/article/details/115831751
Author: bigdata7
Title: pandas5 数据分组与聚合

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/754985/

转载文章受原作者版权保护。转载请注明原作者出处！

python

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

用Python进行数学建模（一）

一、导入数据 1.直接赋值 ; 2.读取 Excel 文件 3.代码示例 import pandas as pd def readDataFile(readPath): try: …

Python 2023年8月2日
0068
Matplotlib figure图形对象

Matplotlib figure图形对象通过前面的学习，我们知道matplotlib.pyplot模块能够快速地生成图像，但如果使用面向对象的编程思想，我们就可以更好地控制和自…

Python 2023年9月4日
0089
python 中 Matplotlib画图技巧

1.模块介绍 matplotlib.pyplot是一个有命令风格的函数集合，它看起来和MATLAB很相似。每一个pyplot函数都使一副图像做出些许改变，例如创建一幅图，在图中创建…

Python 2023年8月30日
0058
缺陷检测（图像处理部分）

论文一：工件表面微小缺陷的检测与识别方法提出”基于像元搜索算法的微小缺陷检测方法”。首先采用直方图均衡化提升背景与缺陷目标的对比度，利用中值和均值滤波对…

Python 2023年8月3日
0061
python俄罗斯方块代码用esp32实验板的源代码_少儿编程分享：手把手教你用Python编写俄罗斯方块(三)…

www.codingmarch.com 游戏分享：手把手教你用 Python 俄罗斯方块(三) 2017.12.21 这次的游戏非常长要有一定的耐心噢 The main() Fu…

Python 2023年9月25日
0039
基于Conda和Jupyter的GEE-python本地环境配置

Google Earth Engine（GEE）是近年来非常热门的云计算平台，主要使用Javascript和Python两种计算语言。而由于编程语言自身的特点，Python非常适合…

Python 2023年9月8日
0034
全都会！预测蛋白质标注！创建讲义！解释数学公式！最懂科学的智能NLP模型Galactica尝鲜 ⛵

💡 作者：韩信子@ShowMeAI📘 机器学习实战系列：https://www.showmeai.tech/tutorials/41📘 深度学习实战系列：https://www.s…

Python 2023年10月24日
0039
MySQL空间暴涨150G导致锁定，发生了什么

背景 12月1号中午突然收到大量报警，某客户环境操作数据库大量失败，报错信息如下图所示：这个报错我是第一次见，一时间有点无所适从，但是从字面意思来看是MySQL目前处于LOCK_…

Python 2023年10月13日
0048
scrapy爬虫初探

今天先从实操作来讲述采用scrapy来实现对csdn博客的爬取，后续慢慢剖析scrapy爬虫的原理和结构。 1）环境搭建首先安装scrapy pip install scrapy…

Python 2023年10月4日
00122
SpringBoot(七) – Redis 缓存

1、五大基本数据类型和操作 1.1 字符串-string 命令说明 set key value 如果key还没有，那就可以添加，如果key已经存在了，那会覆盖原有key的值 ge…

Python 2023年10月18日
0040
有意思的水平横向溢出滚动

最近接到一个很有意思的需求，能否做到当内容横向溢出时，依然能够使用鼠标滚轮对内容进行滚动的方法。什么意思呢？来看看这么一种情况：我们有一个垂直方向溢出滚动的容器，以及一个水平…

Python 2023年10月22日
0049
kafka详解(一)–kafka是什么及怎么用

kafka是什么在回答这个问题之前，我们需要先了解另一个东西–event streaming。什么是event streaming 我觉得， event strea…

Python 2023年10月23日
0030
【爬虫+情感判定+Top10高频词＋词云图】”乌克兰”油管热评python舆情分析

一、分析背景二、整体思路三、代码讲解 3.1 爬虫采集 3.2 情感判定 3.3 Top10高频词 3.4 词云图四、得出结论五、同步视频演示六、附完整源码一、分析背景…

Python 2023年11月2日
0064
Numpy系列（八）：函数库之5傅里叶变换函数

Numpy系列目录文章目录一、简介二、思维导图三、傅里叶变换基础知识 * 1. 傅里叶级数 2. 复数形式傅里叶级数 3. 傅里叶变换 4. 离散傅里叶变换四、 N…

Python 2023年8月27日
00208
序列类型操作

从第一个元素到&#…

Python 2023年11月1日
0043
Spyder 打不开的一种解决办法

Spyder 打不开的解决办法本小白今天安装shap、gcForest等库之后，不知道怎么回事，吃完午饭回来Spyder就打不开了。本来想重装anaconda，但后来在网上搜寻了…

Python 2023年9月7日
0061

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

pandas5 数据分组与聚合

5.数据分组与聚合

大家都在看