【Pandas总结】第八节 Pandas 合并数据集_pd.merge()

2023年7月7日下午3:24 • 人工智能 • 阅读 77

文章目录

*
– 写在前面
– pd.merge()的使用方法
–
+ 一、数据准备
+ 二、参数left 与 right
+ 三、参数 on
+ 四、参数 leftindex 和 rightindex
+ 五、参数how
+ 六、参数indicator
+ 七、参数suffixes
– 写在后面

写在前面

这一节非常的重要，因为Pandas中的数据集合并，最常用的方法就是 merge, 如果大家对数据库熟悉的话，那么会觉得 merge 非常容易理解，因为这个的使用和数据库的合并几乎完全一样。稍微有一点点难点的，应该就是对合并方式的理解，即： inner、 outer、 left、 right 这四种合并方式的理解，下面我们来一起看 pd.merge()的使用方法吧；

pd.merge()的使用方法

语法格式：

pd.merge(left, right, how = ‘inner’, on = None, left_on = None, right_on = None, left_index = False, right_index = False, sort = True, suffixes = (‘_x’,’_y’), copy = True, indicator = False, validate = None)

参数解释left、right需要连接的两个DataFrame或Series，一左一右。 重要参数！

how两个数据连接方式，默认为inner，可设置inner、outer、left或right 。 重要参数！

on作为连接键的字段，当左右两个表的列名相同时使用。如果不相同，需要用left_on和right_on来分别指定。 重要参数！

left_on左表的连接键字段。 重要参数！

right_on右表的连接键字段。 重要参数！

left_index为True时将左表的索引作为连接键，默认为Falseright_index为True时将右表的索引作为连接键，默认为Falsesuffixes如果左右数据出现重复列，新数据表头会用此后缀进行区分，默认为_x和_ysort排序indicator标注数据来源，即：left_only, right_only, both

参数很多，但其实最重要的只有两个参数，即： how, on; 其余参数只要了解就好；

一、数据准备

需要使用两张表，表数据如下，可以复制到本地进行练习；

表一：name_list

Name,from,Year
塞尔达传说,任天堂,2017
只羊,FS,2019
战神,Sony,2018
王者荣耀,Tencent,2015

表二：best_list

Name,最佳游戏
塞尔达传说,是
战神,是
王者荣耀,否
双人成形,是

读入数据：

import pandas  as pd
path_1 = r"./name_list.csv"
path_2 = r"./best_game.csv"

df_name = pd.read_csv(path_1)
df_best = pd.read_csv(path_2)

二、参数 `left` 与 `right`

pd.merge()只能用于两个表的拼接，而且通过参数名称也能看出连接方向是左右拼接，一个左表一个右表， 不可以用作上下的拼接；

这里的两个参数传入后，如果有公共的列名，则可以直接Merge, 举例如下：从例子中我们可以看到，默认的参数如下：on=”Name”, how=”Inner”;

import pandas  as pd
path_1 = r"./name_list.csv"
path_2 = r"./best_game.csv"
df_name = pd.read_csv(path_1)
df_best = pd.read_csv(path_2)
df3 =pd.merge(df_name,df_best)

df3 =pd.merge(left = df_name,right = df_best, on="Name",how="inner")

三、参数 `on`

参数 on 用来指定用那些列来进行拼接，如果不特别不指定，则，相同信息的列都会作为拼接依据；故一般情况下，还是推荐用 on将列指定，避免后续的bug;

当两个表需要拼接的列，列名相同时，直接用on=列名，即可；
若两个表需要拼接的列，列名不同时，需要使用参数： left_on 与 right_on，举例如下：

列名相同：

df3 =pd.merge(left = df_name,right = df_best, on="Name")

列名不同：

df_best.columns = ['Game_name','最佳游戏']
df3 =pd.merge(left = df_name,right = df_best, left_on="Name",right_on="Game_name")

四、参数 `leftindex` 和 `rightindex`

可以用Index作为合并列，在有工号，身份证号等这样的不重复信息时，可以大大提高运算的速度，举例如下：

pd.merge(df_name_index,df_best_index,left_index=True,right_index=True)

全部代码如下：

import pandas  as pd
path_1 = r"./name_list.csv"
path_2 = r"./best_game.csv"

df_name = pd.read_csv(path_1)
df_best = pd.read_csv(path_2)
df_name_index = df_name.set_index(["Name"])

df_best.columns = ['Game_name','最佳游戏']
df_best_index = df_best.set_index("Game_name")

df_index = pd.merge(df_name_index,df_best_index,left_index=True,right_index=True)

五、参数 `how`

参数 how 是 Merge函数中最重要的参数，how 有四个可以传入的值，即： inner、outer、left或right ，分别解释如下：

参数图示(红圈演示，虽然不太对，但是好理解)说明举例left

左连接 ;返回包括左表中的所有记录和右表中连接字段相等的记录

right

右连接; 返回包括右表中的所有记录和左表中连接字段相等的记录；

inner

内连接; 只返回两个表中连接字段相等的行；

outer

外连接；返回左右表中所有的记录和左右表中连接字段相等的记录;

代码如下：

import pandas  as pd
path_1 = r"./name_list.csv"
path_2 = r"./best_game.csv"

df_name = pd.read_csv(path_1)
df_best = pd.read_csv(path_2)

df = pd.merge(df_name,df_best,on ="Name",how="inner")
df = pd.merge(df_name,df_best,on ="Name",how="outer")
df = pd.merge(df_name,df_best,on ="Name",how="left")
df = pd.merge(df_name,df_best,on ="Name",how="right")

六、参数 `indicator`

默认是False不显示数据来源，把参数设置为True就可以了。举一个例子大家就明白了；
如下面的例子，both代表数据来源于两个表，left_only 代表数据来源于左表， right_only 代表数据来源于右边。

pd.merge(df_name,df_best,on ="Name",how="outer",indicator=True)

七、参数 `suffixes`

参数 suffixes可以将原来数据集中相同的列名进行标注（出去on后面指定的列），默认为 x和y；举一个例子大家就明白了；
为了两个表有相同的列，我们将原始数据修改如下：

左表：

Name,from,Year
塞尔达传说,任天堂,2017
只羊,FS,2019
战神,Sony,2018
王者荣耀,Tencent,2015

右表：

Name,最佳游戏,Year
塞尔达传说,是,2017
战神,是,2018
王者荣耀,否,2015
双人成形,是,2021

代码：

import pandas  as pd
path_1 = r"./name_list.csv"
path_2 = r"./best_game.csv"

df_name = pd.read_csv(path_1)
df_best = pd.read_csv(path_2)
df = pd.merge(df_name,df_best,on ="Name",how="outer",suffixes=("_left","_right"))

写在后面

上面写了挺多参数，但实际上大家只要会使用 on, how 就够了，不用浪费太多的时间去研究每一个参数，需要使用的时候再来查就好啦~
因为现在研究了，长时间不用，也会忘记的~

Original: https://blog.csdn.net/weixin_47139649/article/details/126950818
Author: 这么神奇
Title: 【Pandas总结】第八节 Pandas 合并数据集_pd.merge()

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/676527/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

如何选择合适的评价指标

问题介绍在机器学习中，对于数据集小和标注困难的问题，迁移学习是一种常用的解决方法。迁移学习旨在利用已经学习好的知识来解决新问题，并通过将旧问题的经验迁移到新问题中，来提高新任务的…

人工智能 2024年1月1日
0033
Pytorch：目标检测网络-人体关键点检测

Pytorch: 目标检测网络-人体关键点检测 Copyright: Jingmin Wei, Pattern Recognition and Intelligent System…

人工智能 2023年7月9日
0083
编译原理–词法分析器（python语言实现）

词法分析器最近在学习编译原理。由于实验要求有词法分析器，这里我就先记录一下词法分析器实现过程以及具体思路。目标语言此处我选择的目标语言是c语言的子集来进行词法分析。实现语言…

人工智能 2023年7月6日
0053
如何在PyTorch中创建和训练一个神经网络模型

1. 介绍在PyTorch中创建和训练一个神经网络模型是一个非常常见的任务。神经网络是机器学习中的一个重要组件，可以用来解决各种问题，如图像分类、目标检测、语言处理等。本文将详细…

人工智能 2024年1月2日
0037
Pandas 的数据结构 DataFrame 的常用方法

总结的方法所用实例为 sklearn&tensorflow机器学习使用指南第二章中的房屋价格投资预测项目 housing = pd.read_csv("housi…

人工智能 2023年6月2日
0085
Win10安装opencv+clion配置史上最详细的保姆级教程

*安装环境 MinGW pyton2.7.x(2.7任意版本，我使用2.7.13) 下载链接：https://www.python.org/downloads/windows/ *…

人工智能 2023年7月20日
0072
何凯明新作ViTDET：目标检测领域，颠覆分层backbone理念

Exploring Plain Vision Transformer Backbones for Object Detection 【网址】： https://arxiv.org/…

人工智能 2023年7月12日
00165
神经网络的三种训练方法,三种常见的神经网络

神经网络算法的人工神经网络人工神经网络（ArtificialNeuralNetworks，ANN）系统是20世纪40年代后出现的。它是由众多的神经元可调的连接权值连接而成，具有…

人工智能 2023年7月13日
0092
Windows python pip换源不生效（window11系统），以及pip下载库包报错 because normal site-packages is not writeable

1 pip下载库包报错：Defaulting to user installation because normal site-packages is not writeable …

人工智能 2023年7月30日
00236
微软自动调参工具—NNI安装与快速上手，AutoML必备工具

文章目录概述直观的看看里面有什么安装方法 NNI 快速入门与超参优化 * 设置超参数的搜索范围配置config.yaml 听说点进蝈仔帖子的都喜欢点赞加关注~~ 老规矩官网…

人工智能 2023年7月13日
0087
2022年了，软件测试已经饱和了？

这个年头找工作跟找对象一样难，咳咳，工作对象都木有，双重打击5555。关于今年的就业市场，很多人表示特别惨淡，以往简历一投就有大批企业来联系，今年自己投递一大堆简历出去，可能全部…

人工智能 2023年6月19日
00152
数据挖掘原理与实践第四章作业

P147 4.2 假设数据挖掘的任务是将如下的8个点（用 (x,y) 代表位置）聚类为三个簇：A1 (2,10)，A2(2,5)，A3(8,4)，B1(5,8)，B2(7,5)，B…

人工智能 2023年6月2日
0097
Yolov5训练指南—CoCo格式数据集

Yolov5训练指南—CoCo格式数据集 1 准备工作 2 将coco数据集转换为yolo数据集 3 训练参数定义 4 训练模型 5 预测 1 准备工作训练Yolo模型要准备的文…

人工智能 2023年5月26日
0076
YOLOX模型导出笔记

安装OpenVINO runtime 2021.4，在Ubuntu18上安装OpenVINO，官网在此 wget https://apt.repos.intel.com/openv…

人工智能 2023年5月28日
0082
pytorch深度学习框架——实现病虫害图像分类

一、pytorch框架 1.1、概念 PyTorch是一个开源的Python机器学习库，基于Torch，用于自然语言处理等应用程序。2017年1月，由Facebook人工智能研究院…

人工智能 2023年7月1日
0084
使用Protege进行本体构建(实践)

Protege Protégé软件是斯坦福大学医学院生物信息研究中心基于Java语言开发的本体编辑和知识获取软件，或者说是本体开发工具，也是基于知识的编辑器，属于开放源代码软件。 …

人工智能 2023年6月1日
00170

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

【Pandas总结】第八节 Pandas 合并数据集_pd.merge()

文章目录

写在前面

pd.merge()的使用方法

一、数据准备

二、参数 left 与 right

三、参数 on

四、参数 leftindex 和 rightindex

五、参数 how

六、参数 indicator

七、参数 suffixes