pandas数据组合

2023年8月7日下午8:41 • Python • 阅读 60

数据组合常用的方法有concat方法、append方法和merge方法，根据数据的特点不同，有不同的连接方式。

1、添加行

通过concat方法添加行，列相同时添加的行会在原来的列下面链接，列不相同时新的dataframe数据的列是被连接的列的并集。缺失的值用NaN填充。 注：concat是pandas顶层的方法，调用时需要通过pandas来调用。

列相同时：

pf = pd.DataFrame(np.arange(15).reshape(5,3),
                  index=list('ABCDE'),columns=['one','two','three'])

pf1 = pf.iloc[:3]
pf2 = pf.iloc[3:]
print(pf1)
print(pf2)
row_concat = pd.concat([pf1,pf2])
print(row_concat)

打印如下：

   one  two  three
A    0    1      2
B    3    4      5
C    6    7      8
   one  two  three
D    9   10     11
E   12   13     14
   one  two  three
A    0    1      2
B    3    4      5
C    6    7      8
D    9   10     11
E   12   13     14

列不相同时：

pf = pd.DataFrame(np.arange(15).reshape(5,3),
                  index=list('ABCDE'),columns=['one','two','three'])

pf1 = pf.iloc[:3]
pf1.columns = ['one','two','four']
pf2 = pf.iloc[3:]
print(pf1)
print(pf2)
row_concat = pd.concat([pf1,pf2])
print(row_concat)

打印如下：`

   one  two  four
A    0    1     2
B    3    4     5
C    6    7     8
   one  two  three
D    9   10     11
E   12   13     14
   one  two  four  three
A    0    1   2.0    NaN
B    3    4   5.0    NaN
C    6    7   8.0    NaN
D    9   10   NaN   11.0
E   12   13   NaN   14.0

上图中three列的前三行和four列的后两行都是NaN值填充的。

也可以用append方法，用append方法时，不同列缺少的值也会用NaN填充。。

pf = pd.DataFrame(np.arange(15).reshape(5,3),
                  index=list('ABCDE'),columns=['one','two','three'])

pf1 = pf.iloc[:3]

pf2 = pd.DataFrame(np.arange(8).reshape(2,4),columns=['one','two','three','four'])
print(pf1.append(pf2))

打印如下：

   one  two  three  four
A    0    1      2   NaN
B    3    4      5   NaN
C    6    7      8   NaN
0    0    1      2   3.0
1    4    5      6   7.0

append也可以添加Python字典类型的数据，需要指定ignore_idex=True参数。指定ignore_idex=True参数后连接的dataframe数据没有原来的索引值，生成新的从0开始的数字索引。

pf = pd.DataFrame(np.arange(15).reshape(5,3),
                  index=list('ABCDE'),columns=['one','two','three'])

pf1 = pf.iloc[:3]
d = {'one': 'a', 'two': 'b', 'three': 'c'}
print(pf1.append(d,ignore_index=True))

打印如下：

 one two three
0   0   1     2
1   3   4     5
2   6   7     8
3   a   b     c

2、添加列

添加列与添加行类似，主要区别是在concat函数中指定轴参数。axis参数的默认值是0，按行连接。按列添加时指定axis的参数为1，将按列连接数据。

pf = pd.DataFrame(np.arange(15).reshape(5,3),columns=['one','two','three'])

pf1 = pf.iloc[:3]

pf2 = pd.DataFrame(np.arange(8).reshape(2,4),columns=['one','two','three','four'])
print(pd.concat([pf1,pf2],axis=1))

打印如下：

   one  two  three  one  two  three  four
0    0    1      2  0.0  1.0    2.0   3.0
1    3    4      5  4.0  5.0    6.0   7.0
2    6    7      8  NaN  NaN    NaN   NaN

添加一列时无需使用任何pandas函数，提供一个列名，并赋以想添加的列即可实现。

pf = pd.DataFrame(np.arange(15).reshape(5,3),columns=['one','two','three'])
pf['four'] = ['a4','b4','c4','d4','e4']
print(pf)

输出如下：

   one  two  three four
0    0    1      2   a4
1    3    4      5   b4
2    6    7      8   c4
3    9   10     11   d4
4   12   13     14   e4

four列的值顺利添加进来了。

3、不同索引下的连接操作

前面的例子都是有相同的行索引和列索引时连接，如果行索引和列索引都不同时，连接后的dataframe数据将会在值缺失的地方产生很多NaN值。

pf1 = pd.DataFrame(np.arange(15).reshape(5,3),index=range(5),columns=['one','two','three'])

pf2 = pd.DataFrame(np.arange(8).reshape(2,4),index=range(6,8),columns=list('ABCD'))
print(pd.concat([pf1,pf2]))

打印如下：

    one   two  three    A    B    C    D
0   0.0   1.0    2.0  NaN  NaN  NaN  NaN
1   3.0   4.0    5.0  NaN  NaN  NaN  NaN
2   6.0   7.0    8.0  NaN  NaN  NaN  NaN
3   9.0  10.0   11.0  NaN  NaN  NaN  NaN
4  12.0  13.0   14.0  NaN  NaN  NaN  NaN
6   NaN   NaN    NaN  0.0  1.0  2.0  3.0
7   NaN   NaN    NaN  4.0  5.0  6.0  7.0

为了避免包含NaN值，可保留要连接的列共有的列，concat函数有一个join参数，默认join参数值为outter，意味着它会保留所有的列。指定join参数为inner时，只保留数据集都有的列（排除包含NaN值的列）。
这时要保留两个dataframe数据共有的列将会产生一个空值。

pf1 = pd.DataFrame(np.arange(15).reshape(5,3),index=range(5),columns=['one','two','three'])
pf2 = pd.DataFrame(np.arange(8).reshape(2,4),index=range(7,9),columns=list('ABCD'))
print(pd.concat([pf1,pf2],ignore_index=True,join='inner'))

打印如下：

Empty DataFrame
Columns: []
Index: [0, 1, 2, 3, 4, 5, 6]

4、合并多个数据集

前面的例子都是基于行索引或者列索引来合并数据的。当通过dataframe数据中的某列来合并数据时可以使用merge函数。列中不可以含有重复值。

pf1 = pd.read_excel(r'.\test1.xlsx')
pf2 = pd.read_excel(r'.\test2.xlsx')
print(pf1)
print(pf2)
new_pf = pf1.merge(pf2,left_on=['学号','姓名'],right_on=['number','name'])
print(new_pf)

打印如下：

         学号  姓名  成绩
0  20200019  陈俊  98
1  20200021  陈利  89
2  20200022  周睫  96
3  20200023  张凯  92

     number name  sex  age
0  20200022   周睫  NaN   19
1  20200021   陈利    男   18
2  20200019   陈俊    男   19
3  20200023   张凯    男   19

         学号  姓名  成绩    number name  sex  age
0  20200019  陈俊  98  20200019   陈俊    男   19
1  20200021  陈利  89  20200021   陈利    男   18
2  20200022  周睫  96  20200022   周睫  NaN   19
3  20200023  张凯  92  20200023   张凯    男   19

Original: https://blog.csdn.net/weixin_46620651/article/details/112253176
Author: 随便叫个啥~！
Title: pandas数据组合

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/740847/

转载文章受原作者版权保护。转载请注明原作者出处！

python

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

分布式高性能消息处理中心HPMessageCenter

高性能消息分发中心。用户只需写好restful接口，在portal里面配置消息的处理地址，消息消费者就会自动访问相关接口，完成消息任务。（其实HPMessageCenter有两个版…

Python 2023年6月12日
0064
C语言基础要点

C语言基础 C程序编译过程 C程序编译步骤汇编语言 32关键字数据类型常量 size程序类型限定 goto语句指针指针和字符串作用域函数内存进程内存结构可执行…

Python 2023年6月3日
0084
matplotlib.pyplot.hist 参数介绍

matplotlib.pyplot.hist(x, bins=None, range=None, density=False, weights=None, cumulative=F…

Python 2023年9月6日
0061
python移植项目到另外一台电脑

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。 Original: https://blo…

Python 2023年8月4日
0039
一起用Python做个车牌自动识别系统，好玩又实用！

前言前段时间，用PyQt5写了两篇文章，关于Python自制一款炫酷音乐播放器、自定义桌面动画挂件。有粉丝问我，为什么要用PyQt5？之前没接触过PyQt5，能不能多分享一些这方…

Python 2023年8月1日
0059
# Python 数据分析三剑客 numpy / pandas / matplotlib （numpy篇①）

写在前面本来想直接入坑 matplotlib 的，但是因为看了看网友们说的基本都是入门 pandas 和 numpy 开始，还是循序渐进吧，急不得急不得… 正餐开始 …

Python 2023年9月6日
0047
series&pandas索引操作练习

开发工具：jupyter notebook（Python3） import numpy as np import pandas as pd ser1 = pd.Series(np….

Python 2023年8月21日
0042
【SQLServer】max worker threads参数说明

本文介绍如何使用SQL Server Management Studio或Transact-SQL在SQL Server中配置最大工作线程服务器配置选项。 max worker t…

Python 2023年10月22日
0035
pandas之链式索引问题（chained indexing）

SettingWithCopyWarning: A value is trying to be set on a copy of a slice from a DataFrame….

Python 2023年8月19日
0075
生成对抗网络（GAN）详解与实例

GAN介绍理解GAN的直观方法是从博弈论的角度来理解它。GAN由两个参与者组成，即一个生成器和一个判别器，它们都试图击败对方。生成备从分巾中狄取一些随机噪声，并试图从中生成一些类…

Python 2023年8月1日
0068
Windows端pytorch镜像快速安装【清华源】

目录 0. 说在前面 1. 安装Anacoda 1.1 说在前面 1.2 下载 1.3 安装 1.4 记住3条命令 2. 安装CUDA 2.1 更新NVIDIA驱动 2.2 下载C…

Python 2023年8月2日
00145
NLP进阶，Bert+BiLSTM情感分析实战

Bert+BiLSTM做情感分析情感分析情感分析一类的任务比如商品评价正负面分析，敏感内容分析，用户感兴趣内容分析、甚至安全领域的异常访问日志分析等等实际上都可以用文本分类的方…

Python 2023年10月10日
0040
Pycharm使用技巧

Pycharm使用技巧文章目录 Pycharm使用技巧 * 技巧常用快捷键参考来源技巧快速修改同一个变量或类在写代码中时我们经常要定义很多变量或类，变量或类在写代码时可…

Python 2023年9月23日
0043
《Unified Structure Generation for Universal Information Extraction》论文阅读

文章目录 * – 文章介绍 – 文章方案 – + 用于统一结构编码的结构化抽取语言（SEL） + 用于可控IE结构生成的结构模式指导 + 使用U…

Python 2023年9月28日
0047
Pandas数据分析24——pandas时间重采样聚合

参考书目：《深入浅出Pandas：利用Python进行数据处理与分析》 pandas对数据可以进行频率的更改，比如将每五分钟的数据改为每分钟的数据，或者将高频的小时数据改为日期数据…

Python 2023年8月21日
0047
前端必读3.0：如何在 Angular 中使用SpreadJS实现导入和导出 Excel 文件

在之前的文章中，我们为大家分别详细介绍了在JavaScript、React中使用SpreadJS导入和导出Excel文件的方法，作为带给广大前端开发者的”三部曲&#82…

Python 2023年10月21日
0075

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

pandas数据组合

1、添加行

2、添加列

3、不同索引下的连接操作

4、合并多个数据集

大家都在看