Pandas数据分组聚合

2023年8月8日下午8:24 • Python • 阅读 44

合并数据表

pandas提供join操作进行数据间的快速合并，默认以行索引对其

def join(self, other, on=None, how="left", lsuffix="", rsuffix="", sort=False)

需要注意的参数有

how 数据表合并的方式，默认为left，可选为right，outer与inner。不同参数合并的方式与sql中join的方式一样，分别为以左边为基础，以右边为基础，保留所有，只保留交集。

a=pd.DataFrame(np.ones((2,4)),columns=list("abcd"),index=["A","B"])
b=pd.DataFrame(np.ones((3,3)),columns=list("xyz"),index=["A","B","C"])
print(a)
print(b)

结果：
     a    b    c    d
A  1.0  1.0  1.0  1.0
B  1.0  1.0  1.0  1.0
     x    y    z
A  1.0  1.0  1.0
B  1.0  1.0  1.0
C  1.0  1.0  1.0

a.join(b)

结果：
    a   b   c   d   x   y   z
A   1.0 1.0 1.0 1.0 1.0 1.0 1.0
B   1.0 1.0 1.0 1.0 1.0 1.0 1.0

b.join(a)

结果：
    x   y   z   a   b   c   d
A   1.0 1.0 1.0 1.0 1.0 1.0 1.0
B   1.0 1.0 1.0 1.0 1.0 1.0 1.0
C   1.0 1.0 1.0 NaN NaN NaN NaN

on 在实际应用中如果右表的索引值正是左表的某一列的值，这时可以通过将右表的索引和左表的列对齐合并这样灵活的方式进行合并。

另外，pandas还提供merger进行数据合并，不同于join。merge以列索引对其。并且没有固定的主表

merge(left, right, how='inner', on=None, left_on=None, right_on=None,
      left_index=False, right_index=False, sort=True,
      suffixes=('_x', '_y'), copy=True, indicator=False)

含义on列名，join用来对齐的那一列的名字，用到这个参数的时候一定要保证左表和右表用来对齐的那一列都有相同的列名。left_on左表对齐的列，可以是列名，也可以是和dataframe同样长度的arrays。right_on右表对齐的列，可以是列名，也可以是和dataframe同样长度的arrays。left_index/ right_index使用左/右侧DataFrame中的行索引做为连接键how指的是合并(连接)的方式有

;默认为innersort根据dataframe合并的keys按字典顺序排序，默认是，如果置false可以提高表现。

分组与聚合

在SQL语言里有group by功能，在Pandas里有groupby函数与之功能相对应。

一般用法为：

grouped = df.groupby(by="columns_name")

grouped是一个DataFrameGroupBy对象，是可迭代的

grouped中的每一个元素是一个元组，元组里面是（索引(分组的值)，分组之后的DataFrame）

很多时候我们只希望对获取分组之后的某一部分数据，或者说我们只希望对某几列数据进行分组，这个时候在后面或者前面加上所需要部分数据的索引或者切片即可。

需要注意的是如果只选择了一列数据，分组后结果不是一个DataFrame对象而是一个Series。

同时需要注意，如果参数by中是一个数组，即选择了一个以上的分组条件，返回的DataFrame或者Series会有一列以上的索引，我们称之为复合索引。

索引与复合索引

简单的索引操作：

获取index：

df.index

指定index ：

df.index = ['x','y']

重新设置index :

df.reindex(list("abcedf"))#需要注意的是，这个操作只相当于在原表中取某几行，并不是对于index的更新。

指定某一列作为index ：

df.set_index("Country",drop=False)#drop为是否还在原表中保留选作为索引的列，False为保留

返回index的唯一值：

df.set_index("Country").index.unique()

对于复合索引怎样的取值，Series中直接在括号中写索引即可，DataFrame则用到之前说到的loc函数。而如果需要交换索引的值，则使用df.swaplevel()函数

Original: https://blog.csdn.net/rexyang97/article/details/117592562
Author: rexyang97
Title: Pandas数据分组聚合

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/743079/

转载文章受原作者版权保护。转载请注明原作者出处！

python

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

Python创建“全是1”的数组，np.ones()函数

【小白从小学Python、C、Java】【Python-计算机等级考试二级】【Python-数据分析】Python创建”全是1″的数组，np.ones()函…

Python 2023年8月23日
0035
python完成一个小游戏(一)

想写一个小游戏,由于自己时间水平有限所以分开来写来记录一下写的过程有什么好的建议,思路欢迎留言背景和主人公实现这里不知道如何上传视频文件,所以大家可以自己试一下基本实现了：…

Python 2023年9月24日
0027
Pytest框架 — 10、Pytest的标记(一)（跳过和预期失败）

1、前言引用自官方文档您可以标记无法在某些平台上运行或您预计会失败的测试功能，以便 pytest 可以相应地处理它们并提供测试会话的摘要，同时保持测试套件绿色。跳过（skip）…

Python 2023年11月1日
0032
Python + Django4 搭建个人博客（四）: 创建APP和项目配置

目录项目文件结构配置文件创建App 实现一个简单的Web应用 1、注册APP 2、配置访问路径（urls） 3、视图函数功能实现结语项目文件结构上篇，我们已经创建好了一…

Python 2023年8月5日
0049
如何使用appnium爬取视频数据

要先安装Appium，并用它来查找对应元素的id、xpath等信息 from appium import webdriver from appium.webdriver.exten…

Python 2023年11月2日
0029
【机器学习】李宏毅——浅谈机器学习原理+鱼与熊掌兼得的深度学习简述

如何评判一个训练集的好坏如果我们希望得到一个训练集，并且用该训练集所训练出来的模型，在训练集上的误差和在整个数据空间上的误差相距较小，即写成如下表达式： [L(h^{train…

Python 2023年10月24日
0041
matplotlib之pyplot模块之标题（title()和suptitle()）

matplotlib 源码解析标题实现（窗口标题，标题，子图标题不同之间的差异）添加链接描述简单比较了 matplotlib中的标题。使用 title() 设置子图标题 titl…

Python 2023年9月1日
0077
Python+Yolov5人脸口罩识别

程序示例精选Python+Yolov5人脸口罩识别如需安装运行环境或远程调试，见文章底部微信名片，由专业技术人员远程协助！前言 Yolov5比较Yolov4,Yolov3等其他识…

Python 2023年9月5日
0053
彩虹女神跃长空,Go语言进阶之Go语言高性能Web框架Iris项目实战-用户系统EP03

前文再续，之前一篇我们已经配置好了数据库以及模板引擎，现在可以在逻辑层编写具体业务代码了，博客平台和大多数在线平台一样，都是基于用户账号体系来进行操作，所以我们需要针对用户表完成用…

Python 2023年10月23日
0046
Pytest + request + allure 接口自动化

记录下自己第一次部署pytest框架的过程本人是一个新人小白，每天搜索大量的资料，从中获取到一些有用的知识点及踩坑指南，今天分享给各位一、框架的搭建，一旦框架搭建好了之后，后面…

Python 2023年9月11日
0034
Unity打包WebGL平台如何区别移动端和电脑端

Unity打包WebGL平台如何区别移动端和电脑端完整解决方案前情提要最近有一个项目，其中有一个功能来控制角色移动，电脑端是使用WASD（键盘）控制，手机移动端呢使用虚拟摇杆…

Python 2023年9月29日
0036
爬虫——获取研招网学校信息

本文主要介绍了爬虫在搜索和招聘网络上的使用情况，请用户不要频繁运行代码，对服务器造成压力，否则后果自负。同时，我希望代码可以帮助参加考研的学生筛选出他们喜欢的学校。 [En] Th…

Python 2023年5月24日
0079
Java并发之ReentrantLock基础（一）

ReentrantLock是Java中java.util.concurrent.locks.Lock的一个实现类，顾名思义它是Java中锁的一种实现，具体一点来说它是Java中一种…

Python 2023年6月9日
0054
Python全栈工程师之从网页搭建入门到Flask全栈项目实战(4) – Flask模板语法与继承

1.Flask模板介绍前置：理解渲染机制即上篇笔记中render_template()功能是如何实现的！ 1）找到html文件地址 2）读取html文件中的内容 3）替换html…

Python 2023年10月13日
0096
基于 Flask-Admin 与 AdminLTE 构建通用后台管理系统

Flask-Admin 是什么？ Flask-Admin 官网文档中给出了其功能定位： Why Flask-Admin? In a world of micro-services …

Python 2023年8月13日
0044
Python 集合

数学上有一个基础概念 -集合，上高一的时候学过。集合的作用大吗？高考必考，你说呢？关于收藏，维基百科对其描述如下： [En] About collections, Wikiped…

Python 2023年5月24日
0079

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

Pandas数据分组聚合

合并数据表

分组与聚合

索引与复合索引

大家都在看