Pandas数据分析—实现DataFrame的Merge(合并)

2023年7月15日上午5:24 • 人工智能 • 阅读 81

10.Pandas实现DataFrame的Merge(合并)

文章目录

10.Pandas实现DataFrame的Merge(合并)
前言
*
Merge的语法：
一、电影数据集的join实例
二、程序演示
*
–
总结

前言

笔者最近正在学习Pandas数据分析，将自己的学习笔记做成一套系列文章。本节主要记录Pandas中DataFrame的Merge

Pandas的Merge，相当于Sql的Join，将不同的表按key关联到一个表

Merge的语法：

DataFrame.merge(right, how=’inner’, on=None, left_on=None, right_on=None, left_index=False, right_index=False, sort=False, suffixes=(‘_x’, ‘_y’), copy=True, indicator=False, validate=None)

left,right:要merge的dataframe或者有name的Series
how:join类型，’left’,’right’,’outer’,’inner’
on: join的key,left和right都需要有这个key
left_on: left的df或者series的key
right_on: right的df或者series的key
left_index,right_index：使用index而不是普通的column做join
suffixes:两个元素的后缀，如果列有重名，自动添加后缀，默认是（’_x’,’_y’）

一、电影数据集的join实例

电影评分数据集
是推荐系统研究的很好的数据集，包含三个文件：

用户对电影的评分数据ratings.dat
用户本身的信息数据 users.dat
电影本身的数据 movie.dat
可以关联三个表，得到一个完整的大表
https://grouplens.org/datasets/movielens/

二、程序演示

提前读取数据

import pandas as pd

df_ratings=pd.read_csv(
    "./datas/ml-1m/ratings.dat",
    sep="::",
    engine='python',
    names="UserID::MovieID::Rating::Timestamp".split("::")

)
df_ratings.head()

df_users=pd.read_csv(
    "./datas/ml-1m/users.dat",
    sep="::",
    engine='python',
    names="UserID::Gender::Age::Occupation::Zip-code".split("::")

)
df_users.head()

df_movies=pd.read_csv(
    "./datas/ml-1m/movies.dat",
    sep="::",
    engine='python',
    names="MovieID::Title::Genres".split("::")
)
df_movies.head()

1.合并不同表的信息

df_ratings_users=pd.merge(
    df_ratings,df_users,left_on='UserID',right_on="UserID",how="inner"
)

df_ratings_users.head()

df_ratings_users_movies=pd.merge(       df_ratings_users,df_movies,left_on='MovieID',right_on='MovieID',how='inner'
)

df_ratings_users_movies.head(10)

2.理解merge时数量的对齐关系

以下关系要正确的理解：

one-to-one:一对一关系，关联的key都是唯一的
比如（学号，姓名）merge(学号，姓名)
结果条数为1*1
one-to-many: 一对多关系，左边唯一key,右边不唯一key
比如（学号,姓名）merge (学号,[语文分数、数学分数、英语分数])
结果条数：1*N
many-to-many:多对多关系，左边和右边都不是唯一的
比如(学号，[语文分数、数学分数、英语分数]) merge (学号，[篮球、足球、乒乓球])
结果条数为:M*N


left=pd.DataFrame({
    'sno':[11,12,13,14],
    'name':['a','b','c','d']
})
left

right=pd.DataFrame({'sno':[11,12,13,14],
                   'age':['21','22','23','24']})
right

pd.merge(left,right,on='sno')


left=pd.DataFrame({
    'sno':[11,12,13,14],
    'name':['a','b','c','d']
})
left

right=pd.DataFrame({'sno':[11,11,11,12,12,13],
                   'grade':['语文88','数学90','英语75','语文66','数学55','英语29']})
right

pd.merge(left,right,on='sno')


left=pd.DataFrame({
    'sno':[11,11,12,12,12],
    '爱好':['篮球','羽毛球','乒乓球','篮球','足球']
})
left

right=pd.DataFrame({'sno':[11,11,11,12,12,13],
                   'grade':['语文88','数学90','英语75','语文66','数学55','英语29']})
right

pd.merge(left,right,on='sno')

3.理解left join、right join、inner join、outer join的区别

left=pd.DataFrame({
    'key':['K0','K1','K2','K3'],
    'A':['A0','A1','A2','A3'],
    'B':['B0','B1','B2','B3']
})
right=pd.DataFrame({
    'key':['K0','K1','K2','K3'],
    'C':['C0','C1','C2','C3'],
    'D':['D0','D1','D2','D3']
})
left
right


pd.merge(left,right,how='inner')


pd.merge(left,right,how='left')


pd.merge(left,right,how='right')


pd.merge(left,right,how='outer')

4. 如果出现非Key的字段重名怎么办

left=pd.DataFrame({
    'key':['K0','K1','K2','K3'],
    'A':['A0','A1','A2','A3'],
    'B':['B0','B1','B2','B3']
})
right=pd.DataFrame({
    'key':['K0','K1','K2','K3'],
    'A':['C0','C1','C2','C3'],
    'D':['D0','D1','D2','D3']
})
left
right
pd.merge(left,right,on='key')
pd.merge(left,right,on='key',suffixes=('_left','_right'))

总结

这就是pandas的DataFrame的Merge的基本用法了，希望可以帮助到你。

Original: https://blog.csdn.net/qq_48081868/article/details/119996707
Author: Wumbuk
Title: Pandas数据分析—实现DataFrame的Merge(合并)

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/693626/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

统计学第八版贾俊平课后答案

4.2随机抽取25个网络用户，得到他们的年龄数据如表所示。网络用户的年龄数据（单位：周岁）要求：（1）计算众数、中位数。（2）计算四分位数。（3）计算平均数和标准差。（4）计…

人工智能 2023年6月24日
00221
预训练模型进行情感分析(以bert-base-chinese为例)

目录 1.预训练模型下载 2.下载预训练模型 3.导入需要的库 4.定义数据路径 5.查看数据 6.定义神经网络 7.使用BertTokenizer 编码成Bert需要的输入格式 …

人工智能 2023年5月27日
00144
【修改huggingface transformers默认缓存文件夹】

How to change huggingface transformers default cache directory * – 前言 – 关于wind…

人工智能 2023年6月24日
0089
CUHK Occlusion Dataset（行人检测数据集）转换为YOLO+VOC数据集

目录一、引语二、准备工作三、Seq文件转JPEG 四、VBB转XML 五、把刚刚照片与xml一一对应六、VOC数据集制作七、结语一、引语最近想用YOLO训练一个行人检…

人工智能 2023年7月9日
0078
电商用户价值分析——基于RFM模型、KMeans聚类

电商用户价值分析——基于RFM模型、KMeans聚类一、背景二、RFM模型、KMeans聚类三、分析框架四、具体分析 * 1. 导入所需的库 2. 导入数据 3. 数据清洗…

人工智能 2023年6月19日
00145
周志华-机器学习.pdf 学习心得附整理材料

啊哦~你想找的内容离你而去了哦内容不存在，可能为如下原因导致： ① 内容还在审核中 ② 内容以前存在，但是由于不符合新的规定而被删除 ③ 内容地址错误 ④ 作者删除了内容。可…

人工智能 2023年6月16日
0082
Python分多组求平均值的优雅操作

tags: Python Pandas 最近遇到一个问题, 如何分组计算平均值, 例如, 对于随机生成的范围在0~1000的数据, 这里用下面的代码实现: import rando…

人工智能 2023年7月15日
0069
使用pandas对超大csv文件进行快速拆分

文章目录前言 1. 操作步骤 * 1.1 安装pandas 1.2 拆分大文件 2. 再多了解一点儿 * 2.1 pandas读取csv文件后，返回的是什么类型？ 2.2 如何从…

人工智能 2023年7月9日
0080
深圳二手房房价分析及预测

*分析目标：通过处理后的房价数据，筛选对房价有显著影响的特征变量。确定特征变量，建立深圳房价预测模型并对假设情景进行模拟 *数据预处理 `pythonimport pandas…

人工智能 2023年6月17日
00128
windows conda 安装 PyTorch 切换清华源镜像教程

文章目录 * – 1.进入需要安装PyTorch的环境 – 2.切换清华源镜像 – 3.安装对应版本的torch和torchvision &#8…

人工智能 2023年7月22日
00145
有什么佩戴牢固舒适的蓝牙耳机？佩戴感最好的蓝牙耳机推荐

目前，蓝牙耳机市场发展如火如荼，各品牌耳机层出不穷，各种新功能也在不断开发。相信目前大部分消费者对蓝牙耳机都有大致的了解。但什么样的蓝牙耳机最值得买呢？哪款蓝牙耳机更适合你？对于想…

人工智能 2023年5月27日
0087
【OpenCV】漫水填充

文章目录 * – + 1、漫水填充的定义 + 2、漫水填充法的基本思想 + 3、实现漫水填充算法：floodFill函数 + 4、代码详解 1、漫水填充的定义漫水填…

人工智能 2023年7月19日
0062
在你自学计算机的路上，哪些书籍对你的帮助最大?

适合自学的这些专业计算机书: Python Python编程快速上手让繁琐工作自动化第2版在本书中，你将学习利用Python编程在几分钟内完成手动需要几小时的工作，无须事先具…

人工智能 2023年6月29日
0083
python3.7+anaconda3-5.3.1+pytorch1.10.1环境搭建

根据github上bert的pytorch版本Readme当中的安装说明，它支持的python版本是3.6以上的，PyTorch是1.3.1以上的，所有我决定用python3.7来…

人工智能 2023年7月24日
0060
bert中文预训练模型_[中文医疗预训练模型] MC-BERT

Conceptualized Representation Learning for Chinese Biomedical Text Mining 作者：Ningyu Zhang,…

人工智能 2023年6月1日
0074
机器学习算法系列（十八）-随机森林算法（Random Forest Algorithm）

阅读本文需要的背景知识点：决策树学习算法、一丢丢编程知识最近笔者做了一个基于人工智能实现音乐转谱和人声分离功能的在线应用——反谱（Serocs），感兴趣的读者欢迎试用与分享，感…

人工智能 2023年6月15日
00158

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31