pandas中合并数据集

2023年7月7日上午4:27 • 人工智能 • 阅读 58

数据集的合并🔍

1、pandas.merge()

对于数据库风格的DataFrame进行联合

语法👇：

pandas.merge(left, right, how=’inner’, on=None)

left：参与合并的左侧DataFrame。
right：参与合并的右侧DataFrame。
how：指DataFrame的连接方式。默认为inner， inner_是使用两个表都有的键（ _多对多连接 是行的笛卡尔积)——这里可以理解为：比如2对2，首先左边的1对完右边的1和2之后，在左边的2对右边的1和2，因此结果中排列组合实际就是32个结果；left使用左表中所有的键；right使用右表中所有的键；outer使用 两个表中所有 的键。
on：用于连接的列名，必须同时存在于左右两个DataFrame对象中。如果未指定，则以left和right列名的交集作为连接键。
left_on：左侧DataFrame中用作连接键的列。
right_on：右侧DataFrame中用作连接键的列。
left_index：将左侧的行索引用作其连接键。
right_index：将右侧的行索引用作其连接键。
sort：根据连接件对合并后的数据进行排序，默认为True。（有时在处理大数据集时，禁用该选项可获得更好的性能）
suffixes：在重叠情况下，添加到列名后的字符串元组；默认是(‘_x’,’_y’)（例如如果待合并的DataFrame中都含有’data’列，那么结果中会出现’data_x’,’data_y’）。
copy：如果为False，则在某些特殊情况下避免将数据复制到结果数据中；默认情况下总是复制。
indicator*：添加一个特殊的列_merge，指示每一行的来源；值将根据每行中连接数据的来源分别为’left_only’，’right_only’或’both’。

例子🌰

>>>df1=pd.DataFrame({'key':['b','b','a','c','a','b'],
                  'data1':range(6)})
>>>df2=pd.DataFrame({'key':['a','b','a','b','d'],
                         'data2':range(5)})
>>>df1
  key   data1
0   b   0
1   b   1
2   a   2
3   c   3
4   a   4
5   b   5
>>>df2
  key  data2
0   a      0
1   b      1
2   a      2
3   b      3
4   d      4
>>>pd.merge(df1,df2,on='key',how='left')
   key  data1  data2
0    b      0    1.0
1    b      0    3.0
2    b      1    1.0
3    b      1    3.0
4    a      2    0.0
5    a      2    2.0
6    c      3    NaN
7    a      4    0.0
8    a      4    2.0
9    b      5    1.0
10   b      5    3.0
>>>pd.merge(df1,df2,how='inner')
  key  data1  data2
0   b      0      1
1   b      0      3
2   b      1      1
3   b      1      3
4   b      5      1
5   b      5      3
6   a      2      0
7   a      2      2
8   a      4      0
9   a      4      2

2、join方法

用于按照索引合并

这个函数比较简单，直接举例🌰

>>>left2=pd.DataFrame([[1.,2.],[3.,4.],[5.,6.]],
                      index=['a','c','e'],
                      columns=['Ohio','Nevada'])
>>>right2=pd.DataFrame([[7.,8.],[9.,10.],[11.,12.],[13.,14.]],
                       index=['b','c','d','e'],
                       columns=['Missouri','Alabama'])
>>>left2
    Ohio  Nevada
a    1.0     2.0
c    3.0     4.0
e    5.0     6.0
>>>right2
   Missouri  Alabama
b       7.0      8.0
c       9.0     10.0
d      11.0     12.0
e      13.0     14.0
>>>left2.join(right2,how='outer')
   Ohio  Nevada  Missouri  Alabama
a   1.0     2.0       NaN      NaN
b   NaN     NaN       7.0      8.0
c   3.0     4.0       9.0     10.0
d   NaN     NaN      11.0     12.0
e   5.0     6.0      13.0     14.0
>>>another=pd.DataFrame([[7.,8.],[9.,10.],[11.,12.],[16.,17.]],
                        index=['a','c','e','f'],
                        columns=['New York','Oregon'])
>>>another
    New York    Oregon
a        7.0       8.0
c        9.0      10.0
e       11.0      12.0
f       16.0      17.0
>>>left2.join([right2,another])
   Ohio   Nevada   Missouri   Alabama   New York   Oregon
a   1.0      2.0        NaN       NaN        7.0      8.0
c   3.0      4.0        9.0      10.0        9.0     10.0
e   5.0      6.0       13.0      14.0       11.0     12.0
'''由于一些历史原因(pandas版本过低)，DataFrame的join方法进行连接键上的左连接，完全保留左边DataFrame的行索引。
它还支持在调用DataFrame的某一列上连接传递的DataFrame的索引：'''
>>>left1=pd.DataFrame({'key':['a','b','a','a','b','c'],
                    'value':range(6)})
>>>right1=pd.DataFrame({'group_val':[3.5,7]},
                    index=['a','b'])
>>>left1
  key   value
0   a       0
1   b       1
2   a       2
3   a       3
4   b       4
5   c       5

3、对于 NumPy数组的拼接或绑定， numpy.concatenate() 方法可以实现。

例子🌰

>>>arr=np.arange(12).reshape((3,4))
>>>arr
array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11]])
>>>np.concatenate([arr,arr],axis=1)
array([[ 0,  1,  2,  3,  0,  1,  2,  3],
       [ 4,  5,  6,  7,  4,  5,  6,  7],
       [ 8,  9, 10, 11,  8,  9, 10, 11]])

4、pandas.concat()

语法👇：

pandas.concat(objs,axis=0, join=’outer’, ignore_index=False, keys=None, levels=None, names=None, verify_integrity=False, sort=False, copy=True)

objs： 参与连接的pandas对象的列表或字典。唯一必需的参数。
axis： 指明连接的轴向（0为”index”，1为”columns”），默认为0.

join： “inner”或”outer”，默认为”outer”。指明其他轴向上的索引是按交集(inner)还是并集(outer)进行合并。
keys： 与连接对象有关的值，用于形成连接轴向上的层次化索引。可以是任意值的列表或数组、元组数组、数组列表(如果将levels设置成多级数组的话)
levels： 指定用作层次化索引各级别上的索引好累明天继续写吧

Original: https://blog.csdn.net/weixin_43421371/article/details/120870823
Author: Quinn-ntmy
Title: pandas中合并数据集

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/675475/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

亚马逊云科技re:Invent：企业分析版的ChatGPT来了

最近ChatGPT已经被大家玩疯了，那么企业分析版的ChatGPT大家见过没有呢？火爆异常的聊天机器人ChatGPT 如果要评选当下最炙手可热的机器人，那么我想很多读者朋友都会毫…

人工智能 2023年7月31日
0052
【数据科学项目1】：构建你的第一个数据科学项目

【数据科学项目1】：构建你的第一个数据科学项目 ; 引言我们都听说过一个流行词—— “数据科学”。我们大多数人都对”它是什么？我可以成为数据分…

人工智能 2023年6月13日
0073
dataframe普通切片与loc，iloc选取数据

import pandas as pd import numpy as np url = ‘https://raw.githubusercontent.com/HoijanLai/…

人工智能 2023年7月7日
0071
误差反向传播算法是否只可以用于训练神经网络

问题背景误差反向传播算法（Error Backpropagation Algorithm）是一种用于训练神经网络的常用算法。然而，是否只能用于训练神经网络是一个比较有争议的问题。…

人工智能 2024年1月4日
0036
某游戏客户流失情况数据分析

本篇文章将带大家学习简单的数据分析，关于pyecharts和pandas部分知识自行学习。拿到数据，我们先在脑子里想想，我们手中的数据能够分析什么，能够通过可视化能够更直观的反应…

人工智能 2023年7月16日
0090
Spring注解@Profile的功能简介说明

转自: Spring注解@Profile的功能简介说明下文笔者讲述@Profile注解功能说明,如下所示 @Profile： Profile的功能就是配置让应用程序来说,不同的…

人工智能 2023年6月29日
0068
李宏毅机器学习作业2——音位分类预测

目录数据集导包辅助函数设定种子数据预处理数据集加载定义模型训练函数读取数据集和训练读取数据集训练删除内存中的数据，节省空间预测预测函数进行预测解答 …

人工智能 2023年6月27日
0069
【深度讲解】手把手教你python制作萝莉音智能对话语音机器人，附全部源码！速速学起来！！

别着急，先看演示记得三连加关，我太惨了，都没多少人关注我，呜呜！（水印名就是我b站用户名）前言一定要看,很重要！！！为了让大家真正学会，我用分模块步骤的方式讲解，这样也能让大…

人工智能 2023年5月27日
0067
FPGA图像处理-直方图均衡化

直方图统计原理百度百科中关于直方图均衡化的描述：图像处理领域中利用图像直方图对对比度进行调整的方法。对比度是画面黑与白的比值，也就是从黑到白的渐变层次。比值越大，从黑到白的渐变…

人工智能 2023年6月20日
0084
OpenCV（C++版本）基础相关（1）：VS2017与OpenCV4.5.1安装配置教程

文章目录一、VS2017安装 * 1.1 下载 1.2 安装二、OpenCV4.5.1配置 * 2.1 下载 2.2 运行 2.3 环境变量配置三、VS2017种配置Open…

人工智能 2023年7月19日
0066
SVM ValueError: y should be a 1d array, got an array of shape (1, 250) instead. Found input variable

阅读前请看一下：我是一个热衷于记录的人，每次写博客会反复研读，尽量不断提升博客质量。文章设置为仅粉丝可见，是因为写博客确实花了不少精力。希望互相进步谢谢！！文章目录阅读前请看一…

人工智能 2023年7月29日
0054
[ML]（回归和分类）

文章目录误差从哪来？ * Error的来源估测 – 估测变量x的偏差和方差为什么会有很多的模型? 怎么判断？ – 偏差大-欠拟合方差大-过拟合模型…

人工智能 2023年6月17日
0097
YOLOv5实战之PCB板缺陷检测

在前面的文章中已经详细介绍了在本机上安装YOLOv5的教程，安装YOLOv5可参考前面的文章YOLOv5训练自己的数据集(超详细)https://blog.csdn.net/qq_…

人工智能 2023年6月18日
0079
MySQL索引详解

啊哦~你想找的内容离你而去了哦内容不存在，可能为如下原因导致： ① 内容还在审核中 ② 内容以前存在，但是由于不符合新的规定而被删除 ③ 内容地址错误 ④ 作者删除了内容。可…

人工智能 2023年7月29日
0044
关于一维和二维卷积，以及1*1卷积核的理解

本文图片大部分来自吴恩达Andrew Ng老师的深度学习课程。基础操作：最基本的卷积操作是把卷积核在输入中移动（扫一遍），获得输出。 ; 维度：一维卷积和二维卷积的维度是指…

人工智能 2023年7月13日
0046
camera基本概念和工作原理

基本工作原理光线通过镜头Lens进入摄像头内部，然后经过IR Filter过滤红外光，最后到达sensor（传感器），senor分为按照材质可以分为CMOS和CCD两种，可以将光学…

人工智能 2023年6月20日
0056

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

pandas中合并数据集

数据集的合并🔍

大家都在看