import numpy as np
df = pd.DataFrame({'key1' : ['a', 'a', 'b', 'b', 'a'],
    'key2' : ['yes', 'no', 'yes', 'yes', 'no'],
    'data1' : np.random.randn(5),
    'data2' : np.random.randn(5)})
print(df)
groupk1 = df.groupby('key2').mean()
groupk1
#-------------------------------------------------
key1 key2     data1     data2
0    a  yes  0.459241  0.178359
1    a   no  0.707976 -0.147157
2    b  yes  0.604565 -0.723689
3    b  yes  1.524165 -0.332724
4    a   no  1.022692 -0.303317
        data1   data2
key2
no  0.865334    -0.225237
yes 0.862657    -0.292685

1.2按列表或元组分组

wlist = ['w','w','y','w','y']
df.groupby(wlist).sum()
#------------------------------
        data1   data2
w   2.691381    -0.301521
y   1.627258    -1.027006

1.3 按字典分组

df = pd.DataFrame(np.random.normal(size = (6,5)),index = ['a','b','c','A','B','c'])
print("数据为:\n",df)
wdict = {'a':'one','A':'one','b':'two','B':'two','c':'three'}
print("分组汇总后的结果为:\n",df.groupby(wdict).sum())
#----------------------------------------------------------------------
数据为:
           0         1         2         3         4
a  1.083443  1.031824  0.460074  0.243467  0.036343
b  0.646914 -0.189966 -1.610353  0.323603  0.130235
c  1.847796 -0.699053  0.053289  1.274329  0.961385
A -0.966246 -0.452869  0.159198  0.500747  1.168119
B -0.066904 -1.623945  0.390718  2.085596  0.446402
c  0.048900  0.212225  1.871855  0.784043  0.508324
分组汇总后的结果为:
               0         1         2         3         4
one    0.117197  0.578955  0.619272  0.744214  1.204461
three  1.896696 -0.486829  1.925144  2.058372  1.469710
two    0.580010 -1.813911 -1.219634  2.409198  0.576638

1.4按函数分组

def judge(x):
    if x>=0:
        return 'a'
    else:
        return 'b'
df = pd.DataFrame(np.random.randn(4,4))
print(df)
print(df[3].groupby(df[3].map(judge)).sum())
#--------------------------------------------
  0         1         2         3
0 -0.741560 -2.694231 -0.214141 -0.548934
1  0.926205 -0.164564  0.356853  0.840745
2  0.315082 -0.541750  0.256894 -0.219320
3  1.114934 -0.936713 -1.286176 -1.365191
3
a    0.840745
b   -2.133445
Name: 3, dtype: float64

2.数据聚合

数据聚合就是对分组后的数据进行计算，产生标量值的数据转换过程。

2.1使用agg方法聚合函数

以下列数据为例:

不同字段统计不同数目的统计量。

data.agg({'淋巴细胞计数':np.mean,'血小板计数':[np.mean,np.std]})
#--------------------------------------------------------------
淋巴细胞计数  血小板计数
mean    3.849164    202.765922
std NaN 58.932590

如果希望返回的结果不以分组键为索引，可以通过as_index=Flase实现。

data.groupby(['性别','是否吸烟'],as_index = False)['血小板计数'].agg(np.mean)
#-----------------------------------------------------------------------------
    性别  是否吸烟    血小板计数
0   女   否   212.133188
1   女   是   297.333333
2   男   否   194.236749
3   男   是   195.210175

2.2使用apply方法聚合函数

data.groupby(['性别','是否吸烟'])['血小板计数'].apply(np.mean)
#------------------------------------------------------------
性别  是否吸烟
女    否       212.133188
      是       297.333333
男    否       194.236749
      是       195.210175

如果希望返回的结果不以分组键为索引，同样可以设置proup_keys=False。

使用apply方法和agg方法的区别在于agg方法能够实现对不同字段应用不同的函数，而apply不行。

3.数据透视表

3.1 透视表

除了可以使用groupby方法实现以外，还可以使用pivot_table函数实现。

`python
import pandas as pd
import numpy as np
data = pd.DataFrame({‘k1’:[‘a’,’b’,’a’,’a’,’c’,’c’,’b’,’a’,’c’,’a’,’b’,’c’],’k2′:[‘one’,
‘two’,’three’,’two’,’one’,’one’,’three’,’one’,’two’,’three’,’one’,’two’],
‘w’:np.random.rand(12),’y’:np.random.randn(12)})
print(data)
print(“————————————————“)
data.pivot_table(index = ‘k1’,columns = ‘k2’,aggfunc = ‘sum’)

—————————————————————-

k1 k2 w y
0 a one 0.921018 -0.973009
1 b two 0.835016 -1.895325
2 a three 0.030994 0.551870
3 a two 0.751839 -0.262889
4 c one 0.853889 -1.384951
5 c one 0.348098 0.421077
6 b three 0.723510 0.705814
7 a one 0.165716 -1.348793
8 c two 0.216771 0.685648
9 a three 0.666488 -0.468461
10 b one 0.437016 -1.906995
11 c two 0.824064 0.158887

Original: https://blog.csdn.net/m0_64087341/article/details/124432895
Author: 抱抱宝
Title: pandas数据分组与聚合

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/743985/

转载文章受原作者版权保护。转载请注明原作者出处！

python

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

esp8266测试1.44英寸TFT屏(驱动7735)的demo

参考这教程: 使用esp8266点亮福利屏型号st7735的1.44的TFT屏管脚连接：我的用的TFT1.44寸ST7735，与NodeMCU针脚接线成功连接VCC——3VGND—…

Python 2023年9月16日
00193
【C语言】改版三子棋——电脑概率先手

目录 game.h ; game.c 1、初始化二维数组 2、打印棋盘 3、玩家回合（注意判断非法坐标） 4、判断输赢 5、判断是否和局 6、电脑回合 text….

Python 2023年8月2日
0064
django视图之CBV

今日概要： 1、restful 规范（建议） 2、django rest framework框架内容详细： 0.FBV、CBV（要么写函数要么写类） CBV，基于反射实现根据请求…

Python 2023年6月12日
0084
Python入门自学进阶-Web框架——6、Django的ORM-多对多、admin应用

对于多对多关系，如前面的Book和Author表，进行多对多关联插入时，有两种方法：第一种是前面介绍的通过book.author.add(作者对象列表)来增加，这叫做正向查询插入，…

Python 2023年8月6日
0064
Pandas——掌握DataFrame的常用操作

Pandas——掌握DataFrame的常用操作 * – 一、查看DataFrame的常用属性 – + 1.1、订单详情表的4个基本属性 + 1.2、siz…

Python 2023年8月7日
0069
python-flask-mysql完整web项目

公众号：不会写代码的阿P 项目源码在文章最下方—> 项目结构： 1.数据库连接池通过pip插入数据驱动依赖 pip install flask-sqlalche…

Python 2023年8月12日
0062
BEVFormer-accelerate：基于EasyCV加速BEVFormer

作者：贺弘夕陌谦言临在导言 BEVFormer是一种纯视觉的自动驾驶感知算法，通过融合环视相机图像的空间和时序特征显式的生成具有强表征能力的BEV特征，并应用于下游3D检测…

Python 2023年9月26日
0078
大数据HQL笔试题

大数据HQL笔试题问题[字节跳动] 学生每做一道题目就会在表里记录一条，求8月22号学生答的第一题以及得分，最后一题以及得分原数据如下 + | user_id | questi…

Python 2023年8月9日
0058
pytest + yaml 框架 -4.用例参数化parameters功能实现

当一个用例用到多组测试数据的时候，我们必然会用到参数化，接下来看下如何在yaml文件中实现参数化 pip 安装插件 pip install pytest-yaml-yoyo 参数化…

Python 2023年9月13日
0052
Python实现将文本数据批量导入Excel表格，并按格式保存

本文实现用Python将文本文件自动保存到Excel表格里面去。需求将锦江区.txt 文件中的数据整理到锦江区.xlsx 的锦江区 sheet ；将推荐菜字段丢弃(保留前…

Python 2023年11月3日
0039
数据归一化、标准化

0.前言理解量钢化：https://zhuanlan.zhihu.com/p/225387114量钢化方法：图片来源：https://zhuanlan.zhihu.com/p/22…

Python 2023年8月17日
0067
Python学习(三)之Numpy与Pandas的使用

文章目录 1 Numpy简单使用 * 1.1 Numpy介绍 1.2 基本使用 2 Pandas数据分析 * 2.1 Pandas介绍 Pandas基本使用 1 Numpy简单使用…

Python 2023年8月26日
0088
python测试框架之Pytest(二) : 测试用例的前置setup&后置teardown用法

目录 pytest中的前置和后置 * 类内外执行：方法细化级setup/teardown 类外执行：模块级（setup_module/teardown_module) 类外执行：函…

Python 2023年9月11日
00110
『云原生·Docker』Docker中部署Nginx

系列文章目录 本系列主要分&#x4E3A…

Python 2023年9月30日
0047
命令注入与dvwa中的Command Injection

一、什么是命令注入？即 Command Injection，是指通过提交恶意构造的参数破坏命令语句结构，从而达到执行恶意命令的目的。此攻击与代码注入不同，因为代码注入允许攻击者…

Python 2023年11月5日
0042
Pandas数据处理参数说明+实例解析！！

Pandas缺失值处理使用Numpy中的np.NaN或者np.nan -*- coding: UTF-8 -*- import pandas as pd import numpy…

Python 2023年8月17日
0051

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

pandas数据分组与聚合

1.1 按列名分组