pandas（5）数据表的合并

2023年7月7日上午5:56 • 人工智能 • 阅读 76

数据表的合并

本节目标：学会多个数据表的合并

本节技术点：join,melt,merge，compare

本节阅读需要（20）min。
本节实操需要（20）min。

文章目录

数据表的合并
前言
一、join
二、merge
三、concat、append
四、compare
键值问题
总结

前言

这一节的内容是数据表之间的操作.因为客观上很多的数据表是相互关联的.

比如收入工资的表单和各种绩效的表肯定是挂钩的.
所以我们需要根据某个共有的特性,连接两个表的内容.
比如说根据名字,通过绩效表去计算工资!!!

一、join

import pandas as pd
import io

csv = '''
breed,size,kids,longevity,price
Beagle,small,high,12.3,288.0
Samoyed,medium,high,12.44,1162.0
Golden Retriever,medium,high,12.04,958.0
Yorkshire Terrier,small,low,12.6,1057.0
Boxer,medium,high,8.81,700.0
Dachshund,small,low,12.63,423.0
'''

ppl = pd.DataFrame({'name': ['Sam', 'Tina', 'Jeff', 'Kirsten'],
   'likes': ['Samoyed', 'Dachshund', 'Beagle', 'Golden Retriever']})
ppl = ppl.set_index('likes')
dogs = pd.read_csv(io.StringIO(csv), index_col='breed')['price']

ppl.join(dogs)

DataFrame.join(other, on=None, how=’left’, lsuffix=”, rsuffix=”, sort=False)

on:【列名称，或者列名称的list/tuple，或者类似形状的数组】连接的列，默认使用 行索引连接
how:【{‘left’, ‘right’, ‘outer’, ‘inner’}, default: ‘left’】连接的方式，默认为左连接
连接方式本质是集合概念. left是按照左边的index,右边的多余的删除,没有的补齐.

其他几个类似,outer是index取交集.inner取的是并集.

sort:【boolean, default False】按照字典顺序对结果在连接键上排序。如果为False，顺序就是连接方式默认的.

lsuffix:【string】左DataFrame中重复列的后缀
rsuffix:【string】右DataFrame中重复列的后缀
这个一般用不到,是 为了防止合并的时候列重名所以一般添加后缀,其实在合并之前就需要单独处理添加前缀或后缀了.

注意:

join的结果还是df所以join可以串联一次合并多个数据表

二、merge

pd.merge(left, right, how=’inner’, on=None, left_on=None, right_on=None,left_index=False, right_index=False, sort=True,suffixes=(‘_x’, ‘_y’), copy=True)

on 指定用于连接的键（即列标签的名字），该键必须同时存在于左右两个 DataFrame 中，如果没有指定，并且其他参数也未指定，那么将会以两个 DataFrame 的 列名交集做为连接键

left_on,right_on用于指定合并用的键.尤其是名称不一致,但意义一致的情形.

但是其实 应该读入时候就预处理成一样的!!!

suffixes 字符串组成的元组。当左右 DataFrame 存在相同列名时，通过该参数可以在相同的列名后附加后缀名，默认为(‘_x’,’_y’)。
要执行的合并类型，从 {‘left’, ‘right’, ‘outer’, ‘inner’} 中取值， 默认为”inner”内连接。
默认merge之后是产生新的df. 所以copy=True

import pandas as pd
left = pd.DataFrame({
   'id':[1,2,3,4],
   'Name': ['Smith', 'Maiki', 'Hunter', 'Hilen'],
   'subject_id':['sub1','sub2','sub4','sub6']})
right = pd.DataFrame({
    'id':[1,2,3,4],
   'Name': ['William', 'Albert', 'Tony', 'Allen'],
   'subject_id':['sub2','sub4','sub3','sub6']})

print(pd.merge(left,right,on='id'))

how和SQL的对应关系.

三、concat、append

Pandas 通过 concat() 函数能够轻松地将 Series 与 DataFrame 对象组合在一起
pd.concat(objs,axis=0,join=’outer’,join_axes=None,ignore_index=False)
用到的比较多的是同样类型的表型数据串联。比如每个班的学习成绩合并成整个年级的学习成绩，
然后去做各种处理等等。

import pandas as pd
a= pd.DataFrame({'A': ['A0', 'A1', 'A2', 'A3'],
                    'B': ['B0', 'B1', 'B2', 'B3'],
                    'C': ['C0', 'C1', 'C2', 'C3'],
                    'D': ['D0', 'D1', 'D2', 'D3']},
                    index=[0, 1, 2, 3])
b= pd.DataFrame({'A': ['A4', 'A5', 'A6', 'A7'],
                    'B': ['B4', 'B5', 'B6', 'B7'],
                    'C': ['C4', 'C5', 'C6', 'C7'],
                    'D': ['D1', 'D2', 'D5', 'D6']},
                     index=[2,3,4,5])

print(pd.concat([a,b],keys=['x','y'],ignore_index=True))

    A   B   C   D
0  A0  B0  C0  D0
1  A1  B1  C1  D1
2  A2  B2  C2  D2
3  A3  B3  C3  D3
4  A4  B4  C4  D1
5  A5  B5  C5  D2
6  A6  B6  C6  D5
7  A7  B7  C7  D6

concat往往是有意义的。下面的虽然也行但是意义不大。。。

print(pd.concat([a,b],axis=1))


print(a.append(b))

append重载过很方便，可以一次链接好几个。a.append(b,c,a)

四、compare

相当于找不同

df = pd.DataFrame(
    {
        "col1": ["a", "a", "b", "b", "a"],
        "col2": [1.0, 2.0, 3.0, np.nan, 5.0],
        "col3": [1.0, 2.0, 3.0, 4.0, 5.0],
    },
    columns=["col1", "col2", "col3"],
)
df2 = df.copy()
df2.loc[0, "col1"] = "c"
df2.loc[2, "col3"] = 4.0
df.compare(df2)
  col1       col3
  self other self other
0    a     c  NaN   NaN
2  NaN   NaN  3.0   4.0

完全一样的行和列是不会显示的。存在差异行列才会显示并且显示前后两个的值。如果是一样的用NaN
不同的用具体的值展现不同

键值问题

有过SQL经验的人应该知道，键值很可能不唯一是不是？

result = pd.merge(left, right, on="B", how="outer", validate="one_to_one")
pd.merge(left, right, on="B", how="outer", validate="one_to_many")

其实是相当于增加了一层约束。

总结

merge和join其实就是形式上不一样，功能上是一致的。
但是需要注意join默认左链接，很多人喜欢这个书写方式。
merge则默认inner方式，这一点差异很重要！！！

merge的on可是以一个集合或列表含有多个列名作为键值，前提是这些列在两个df里面都存在。
又因为merge是inner，所以这种情况得到的df规模必然大量缩减，可以用来查找特殊元素。

官网合并教程

Original: https://blog.csdn.net/qq_34786604/article/details/126869482
Author: 快乐很重要的汪
Title: pandas（5）数据表的合并

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/675613/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

【yolov4-tiny】三、NNIE小结

序【yolov4-tiny】一、darknet-＞caffe【yolov4-tiny】二、pytorch-＞onnx-＞caffe 前文使用两种途径将yolov4-tiny转为c…

人工智能 2023年7月14日
0075
Python 基础知识记录

一、两个list第一个列表排序后，第二个列表根据第一个列表索引进行排序。 x = [2,1,4,5,6,0] y = [‘a’,’b’,’c’,’d’,’e’,’f’] x_sor…

人工智能 2023年7月8日
0088
Pyspark特征工程–Word2Vec

Word2Vec class pyspark.ml.feature.Word2Vec(vectorSize=100, minCount=5, numPartitions=1, st…

人工智能 2023年5月28日
00103
一文速学-Pandas处理缺失值操作各类方法详解

缺失值处理 1.计数 2.筛选 3.填充匆忙之间在CSDN上连载博客已有三年之久，现在已临近毕业。回顾大学的四年尽是不甘，意难平。有时反思良久，或许是我对自己的定位还不够明确，还…

人工智能 2023年7月18日
0047
背景建模（对视频处理+python实现+原理+实验报告）

资源：背景建模（对视频处理+python实现+原理+实验报告）实现效果： ; 依赖库安装及运行描述：运行代码所需的库有两个，numpy和opencv,安装命令：pip inst…

人工智能 2023年7月20日
0068
tensorflow2(GPU)显卡版安装

准备工作硬件：一张算力3.5以上的NVIDIA显卡查询链接:link. 软件：Miniconda3pycharmNVIDIA显卡驱动30系列以前：cuda_10.1cudnn-1…

人工智能 2023年5月25日
0087
零售销售数据分析案例实战

案例背景:一家销售集团在八月份出现了经营异常，商品的销售环比有所上升，但毛利率环比下降。数据分析任务:找出影响毛利率的关键因素，并将所发现的提供给团队，根据发现的结果能否对经营的…

人工智能 2023年6月11日
0044
深度学习训练滑动验证码(Yolov5)

注：本文只用于学习，如有问题请联系作者。场景介绍对于现在网络的大多数滑动验证码如果想用一个通用的方法还是需要用深度学习，用图像处理的方式对于单一类型还是比较好用的，多类型还是难…

人工智能 2023年7月9日
00107
如何根据CUDA版本安装对应的pytorch？

### 回答1： CUDA 11.6 对应_的 _PyTorch 版本_为 _PyTorch 1.10.0。在发布 CUDA 11.6 之前， PyTorch 1.9.0 目前是支…

人工智能 2023年6月15日
0076
yolov5模型配置yaml文件详解

yolov5的代码模型构建是通过.yaml文件实现的，初次看上去会一头雾水，这里记录一下，也方便自己后面用到的时候查看。以models/yolov5s.yaml为例文件内容如下…

人工智能 2023年5月26日
0054
语音智能小车:语音识别模块LD3320+STMF103

使用LD3320模块,实现用户说一句话,比如说一句”小车左转”,小车就会进行左转,到后面会加SD卡模块,实现语音交互等功能. LD3320是非特定人（不用针…

人工智能 2023年5月25日
00107
Python图像处理丨图像缩放、旋转、翻转与图像平移

摘要：本篇文章主要讲解Python调用OpenCV实现图像位移操作、旋转和翻转效果，包括四部分知识：图像缩放、图像旋转、图像翻转、图像平移。本文分享自华为云社区《[Python图…

人工智能 2023年6月18日
00228
人工智能基于机器学习的AI语音识别（ASRT）（一）环境搭建

环境搭建环境清单 * 操作系统 Python环境 CUDA 10.0 及其对应版本的cuDNN – CUDA安装失败 + CUDA安装失败原因 CUDA安装失败解决方…

人工智能 2023年5月25日
0093
dataframe去掉索引 python_python-根据级别之间的“ AND”条件删除DataFrame的多索引行…

我希望能够使用多个级别条件(通过逻辑AND连接条件)从多索引数据帧对象中删除行. 考虑以下给出的pandas dataframe 对象： import pandas as pd d…

人工智能 2023年7月8日
0095
使用K-means算法进行聚类分析

本文将介绍如何使用 K-means 算法对给定的坐标数据进行聚类分析。使用K-means算法进行聚类分析问题描述 K-means算法对data中数据进行聚类分析（1）算法原理描…

人工智能 2023年5月31日
00116
Win10/11机器学习环境搭建—python、pycharm、anaconda、pytorch_gpu、tensorflow_gpu、Jupyter Notebook

目录 Python-Anaconda- CUDA-cudnn-Torch- Tensorflow-显卡驱动-版本对应关系 Anaconda下载、安装和运行【问题】’c…

人工智能 2023年7月23日
00131

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

pandas（5）数据表的合并

文章目录

大家都在看