concat, join, 和merge的区别在Python中

2023年8月8日下午9:48 • Python • 阅读 63

concat：

Pandas函数
可以垂直和水平地连接两个或多个pandas对象
只用索引对齐
索引出现重复值时会报错
默认是外连接（也可以设为内连接）

join：

DataFrame方法
只能水平连接两个或多个pandas对象
对齐是靠被调用的DataFrame的列索引或行索引和另一个对象的行索引（不能是列索引）
通过笛卡尔积处理重复的索引值
默认是左连接（也可以设为内连接、外连接和右连接）

merge：

DataFrame方法
只能水平连接两个DataFrame对象
对齐是靠被调用的DataFrame的列或行索引和另一个DataFrame的列或行索引
通过笛卡尔积处理重复的索引值
默认是内连接（也可以设为左连接、外连接、右连接）

用户自定义的display_frames函数，可以接收一列DataFrame，然后在一行中显示：
from IPython.display import display_html
years = 2016, 2017, 2018
stock_tables = [pd.read_csv('data/stocks_{}.csv'.format(year), index_col='Symbol') for year in years]
def display_frames(frames, num_spaces=0):
    t_style = '

concat是唯一一个可以将DataFrames垂直连接起来的函数

pd.concat(stock_tables, keys=[2016, 2017, 2018])

SharesLowHigh Symbol 2016AAPL8095110TSLA5080130WMT4055702017AAPL50120140GE1003040IBM877595SLB205585TXN5001523TSLA1001003002018AAPL40135170AMZN89001125TSLA50220400

pd.concat(dict(zip(years,stock_tables)), axis='columns')

用join将DataFrame连起来；如果列名有相同的，需要设置lsuffix或rsuffix以进行区分
stocks_2016.join(stocks_2017, lsuffix='_2016', rsuffix='_2017', how='outer')

stocks_2016
       Shares Low   High
Symbol
AAPL    80    95    110
TSLA    50    80    130
WMT     40    55    70

要重现前面的concat方法，可以将一个DataFrame列表传入join
other = [stocks_2017.add_suffix('_2017'), stocks_2018.add_suffix('_2018')]
stocks_2016.add_suffix('_2016').join(other, how='outer')

检验这两个方法是否相同
stock_join = stocks_2016.add_suffix('_2016').join(other, how='outer')
stock_concat = pd.concat(dict(zip(years,stock_tables)), axis='columns')
stock_concat.columns = stock_concat.columns.get_level_values(1) + '_' + stock_concat.columns.get_level_values(0).astype(str)
stock_concat

step1 = stocks_2016.merge(stocks_2017, left_index=True, right_index=True, how='outer', suffixes=('_2016', '_2017'))
stock_merge = step1.merge(stocks_2018.add_suffix('_2018'), left_index=True, right_index=True, how='outer')
stock_concat.equals(stock_merge)
#True

stock_merge

查看food_prices和food_transactions两个小数据集
names = ['prices', 'transactions']
food_tables = [pd.read_csv('data/food_{}.csv'.format(name)) for name in names]
food_prices, food_transactions = food_tables
display_frames(food_tables, 30)

通过键item和store，将food_transactions和food_prices两个数据集融合
food_transactions.merge(food_prices, on=['item', 'store'])

因为steak在两张表中分别出现了两次，融合时产生了笛卡尔积，造成结果中出现了四行steak；因为coconut没有对应的价格，造成结果中没有coconut
下面只融合2017年的数据
food_transactions.merge(food_prices.query('Date == 2017'), how='left')

使用join复现上面的方法，需要将要连接的food_prices列转换为行索引
food_prices_join = food_prices.query('Date == 2017').set_index(['item', 'store'])
food_prices_join

join方法只对齐传入DataFrame的行索引，但可以对齐调用DataFrame的行索引和列索引；
要使用列做对齐，需要将其传给参数on
food_transactions.join(food_prices_join, on=['item', 'store'])

要使用concat，需要将item和store两列放入两个DataFrame的行索引。但是，因为行索引值有重复，造成了错误
#pd.concat([food_transactions.set_index(['item', 'store']),food_prices.set_index(['item', 'store'])], axis='columns')
###ValueError: cannot handle a non-unique multi-index!

glob模块的glob函数可以将文件夹中的文件迭代取出，取出的是文件名字符串列表，可以直接传给read_csv函数
#glob用它可以查找符合特定规则的文件路径名。使用该模块查找文件，只需要用到： "*", "?", "[]"这三个匹配符;
import glob
df_list = []
for filename in glob.glob('data/gas prices/*.csv'):
    df_list.append(pd.read_csv(filename, index_col='Week', parse_dates=['Week']))
gas = pd.concat(df_list, axis='columns')
gas.head()

Original: https://blog.csdn.net/weixin_48135624/article/details/113994207
Author: 缘源园
Title: concat, join, 和merge的区别在Python中

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/743228/

转载文章受原作者版权保护。转载请注明原作者出处！

python

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

Activiti 7 源码学习

启动分析源码版本是 7.1.0.M6 首先从 ProcessEngineAutoConfiguration 开始 ProcessEngineAutoConfiguration 是…

Python 2023年10月21日
0046
【Pygame实战】超有趣的泡泡游戏来袭——愿你童心不泯，永远快乐简单哦~

导语 🎈泡泡王国欢乐多多 🎈 咕噜噜，吹泡泡，七彩泡泡满天飘。大的好像彩气球，小的就像紫葡萄。当泡泡漫天飞舞时，大朋友、小朋友都会情不自禁地被它吸引。而当珍珠般的泡泡遇上…

Python 2023年9月18日
0046
一道编程劝退题，检测你是否适合干编程

大家都知道要想成为一名优秀的开发工程师，需要数学基础好，即你要有很强的逻辑思维能力，这里有一道美国斯坦福大学出的一道逻辑思维的测试题，检测你的逻辑思维能力，大家可以看看自己逻辑能力…

Python 2023年11月5日
0034
Python学习笔记: pip install 常见错误汇总

本机环境RHEL8, Python3.9 在pypi上查看pkg的页面，因为有些pip包的版本对特定的python版本有要求 src/kerberos.c:18:10: fatal…

Python 2023年6月10日
0099
Python字符串、字典

1. (简答题) 调用python字符串操作中常用函数，实现以下功能：已知字符串a = “Hello_Python_!!!”，请将a字符串全部转为大写； …

Python 2023年8月29日
0053
Scrapy 框架架构

Scrapy 框架架构目录 Scrapy 框架架构前言一、核心组成二、数据流三、项目结构总结前言 Scrapy (/ˈskreɪpaɪ/) 是一个用于抓取网站和提取结…

Python 2023年10月1日
0033
python 怎么实现3d 动画_python – 使用matplotlib的3D动画

我用了这个例子 http://matplotlib.org/1.4.1/examples/animation/simple_3danim.html 并修改了你的代码： from m…

Python 2023年9月5日
0047
conda的使用（速查手册）

个人云端速查手册，欢迎补充！ python环境管理工具，可同时管理不同Python版本的运行环境，可在不同环境之间来回切换。 conda命令 0.更新&安装 conda i…

Python 2023年9月8日
0036
python随机森林特征重要性原理_使用Python的随机森林特征重要性图表

我正在使用Python中的RandomForestRegressor，我想创建一个图表来说明功能重要性的排名。这是我使用的代码： from sklearn.ensemble imp…

Python 2023年8月8日
0065
体验最近火爆的ChatGPT

啊哦~你想找的内容离你而去了哦内容不存在，可能为如下原因导致： ① 内容还在审核中 ② 内容以前存在，但是由于不符合新的规定而被删除 ③ 内容地址错误 ④ 作者删除了内容。可…

Python 2023年11月3日
0045
Python加载数据的5种方法

我们回顾了五种引入数据的Python技术，并附有代码实例供你参考。本文作者是 Ahmad Anis,他是一位机器学习和数据科学的学生。今年4月15日发表于Python。关注《Py…

Python 2023年8月27日
0052
《痞子衡嵌入式半月刊》第 63 期

痞子衡嵌入式半月刊：第 63 期这里分享嵌入式领域有用有趣的项目/工具以及一些热点新闻，农历年分二十四节气，希望在每个交节之日准时发布一期。本期刊是开源项目（GitHub: …

Python 2023年10月21日
0032
强化学习-学习笔记8 | Q-learning

上一篇笔记认识了Sarsa，可以用来训练动作价值函数(Q_\pi)；本篇来学习Q-Learning，这是另一种 TD 算法，用来学习最优动作价值函数 Q-star，这就是之前价值…

Python 2023年10月25日
0053
pytest系列(四) –yaml详解及接口项目实战

声明：参考B站视频，自学成长记录https://www.bilibili.com/video/BV1u5411A7Um?p=14 yaml文件什么是yaml yaml是一种数据格…

Python 2023年9月10日
0052
flutter系列之:builder为构造器而生

flutter中有很多种Builder，虽然所有的builder都是构造器，但是不同的builder之间还是有很多差距的。今天我们来详细介绍一下Builder，LayoutBuil…

Python 2023年10月18日
0049
Python他不香吗？四、五行代码就能搞定几百份表格的拆分！

作者: 锋小刀微信搜索【Python与Excel之交】关注我的公众号查看更多内容 当你要重&…

Python 2023年8月8日
0046

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

concat, join, 和merge的区别在Python中

大家都在看