pd.merge(left, right, how='inner', on=None, left_on=None, right_on=None,
         left_index=False, right_index=False, sort=True,
         suffixes=('_x', '_y'), copy=True, indicator=False,
         validate=None)

参数如下：

left: 拼接的左侧DataFrame对象
right: 拼接的右侧DataFrame对象
on: 要加入的列或索引级别名称。必须在左侧和右侧DataFrame对象中找到。如果未传递且left_index和right_index为False，则DataFrame中的列的交集将被推断为连接键。
left_on:左侧DataFrame中的列或索引级别用作键。可以是列名，索引级名称，也可以是长度等于DataFrame长度的数组。
right_on: 左侧DataFrame中的列或索引级别用作键。可以是列名，索引级名称，也可以是长度等于DataFrame长度的数组。
left_index: 如果为True，则使用左侧DataFrame中的索引（行标签）作为其连接键。对于具有MultiIndex（分层）的DataFrame，级别数必须与右侧DataFrame中的连接键数相匹配。
right_index: 与left_index功能相似。
how: One of ‘left’, ‘right’, ‘outer’, ‘inner’. 默认inner。inner是取交集，outer取并集。比如left：[‘A’,’B’,’C’];right[”A,’C’,’D’]；inner取交集的话，left中出现的A会和right中出现的买一个A进行匹配拼接，如果没有是B，在right中没有匹配到，则会丢失。’outer’取并集，出现的A会进行一一匹配，没有同时出现的会将缺失的部分添加缺失值。
sort: 按字典顺序通过连接键对结果DataFrame进行排序。默认为True，设置为False将在很多情况下显着提高性能。
suffixes: 用于重叠列的字符串后缀元组。默认为（’x’，’ y’）。
copy: 始终从传递的DataFrame对象复制数据（默认为True），即使不需要重建索引也是如此。
indicator:将一列添加到名为_merge的输出DataFrame，其中包含有关每行源的信息。

（1）连接键 on

df_1 = pd.DataFrame({'a':[1,2],'x':[5,6]})
df_1

df_2 = pd.DataFrame({'a':[2,1,0],'y':[6,7,8]})
df_2

pd.merge(df_1,df_2,on = ‘a’)
按照a这一列，从左到右进行连接

（2）索引连接 lef/right_index

可以直接按索引进行连接。

pd.merge(df_1,df_2,left_index = True,right_index = True,suffixes = (“_1″,”_2”))

本例中，两个表都有同名的a列，用suffixes参数设置后缀来进行区分。

三、应用实例

现在我们有一组关于全球星巴克店铺的统计数据，如果我想知道美国的星巴克数量和中国的哪个多，或者我想知道中国每个省份星巴克的数量的情况，那么应该怎么办？

数据来源：https://www.kaggle.com /starbucks /store-locations/data

查看数据的基本信息：

import pandas as pd
import numpy as np

file_path = "./starbucks_store_worldwide.csv"

df = pd.read_csv(file_path)
print(df.head(1))

`
RangeIndex: 25600 entries, 0 to 25599
Data columns (total 13 columns):
# Column Non-Null Count Dtype
Brand Store Number Store Name Ownership Type Street Address \
0 Starbucks 47370-257954 Meritxell, 96 Licensed Av. Meritxell, 96

           City State/Province Country Postcode Phone Number  \

0 Andorra la Vella 7 AD AD500 376818720

              Timezone  Longitude  Latitude

0 GMT+1:00 Europe/Andorra 1.53 42.51

Original: https://blog.csdn.net/weixin_43172869/article/details/125174294
Author: Bayesian小孙
Title: 数据科学库Python——Pandas数据合并与分组聚合_2（join和merge）

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/755428/

转载文章受原作者版权保护。转载请注明原作者出处！

python

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

conda 配置深度学习环境 pytorch transformers

前言最近想学习一下 Huggingface 的 Transformers 库的使用，需要重新搭建一个虚拟环境，做简单记录方便之后工作。正文这次搭建主要是平时测试和玩的环境，不…

Python 2023年9月9日
00120
numpy实战，PCA降维（特征值分解方法，不讲奇异值分解SVD）

PCA介绍在实践中，获取的数据维度都比较高。因为很多时候会把离散变量使用读入编码弄成多维空间，这样数据可以很稀疏，也会包含一些噪声。此时可以运用PCA降维，使特征之间更加独立，也…

Python 2023年8月29日
0075
矩阵&矩阵的维度&矩阵按某一维度进行拼接

以Numpy为例介绍，但是不仅仅适用于ndarry；只要是矩阵按照axis=k这种方式拼接都满足如下方式 Numpy的一个很重要的数据类型就是ndarry NumPy Ndarra…

Python 2023年8月24日
0056
inx函数python_Python数据分析入门

如今数据分析越来越重要，比起使用excel等工具，使用编程语言更加高效。这篇文章主要介绍一些简单的数据分析入门知识，使用的语言是python。读取csv文件数据分析的第一步是要…

Python 2023年8月18日
0075
conda-[win10执行.sh脚本]-win10在conda环境中用git bash执行sh脚本

conda-[win10执行.sh脚本]-win10在conda环境中用git bash执行sh脚本 1.问题背景 2.解决方法 * 2.1安装git 2.2在conda环境中用g…

Python 2023年9月9日
0074
PyTorch Geometric Temporal 介绍 —— 数据结构和RGCN的概念

PyTorch Geometric Temporal is a temporal graph neural network extension library for PyTorc…

Python 2023年10月14日
0046
两行Python代码实现自动打开百度并输入搜索词，超简单

在群里面最常见的一句话就是，本群已和百度达成深度合作，有问题直接找百度即可！好家伙~ 那我们今天就来试试，用Python自动打开百度找答案！涉及知识点基础语法路由跳转 ht…

Python 2023年11月1日
0054
有向无环图的拓扑排序

原文地址：问题描述给定一个有向图，图节点的拓扑排序定义如下: 对于图中的每一条有向边 A -> B , 在拓扑排序中 A 一定在 B 之前. 拓扑排序中的第一个节点可以是…

Python 2023年10月19日
0039
Doris安装部署

下载安装 Doris运行在Linux环境中，推荐 CentOS 7.x 或者 Ubuntu 16.04 以上版本，同时你需要安装 Java 运行环境（JDK最低版本要求是8） 1、…

Python 2023年10月13日
0083
爬虫之bs4、xpath数据解析（案例—scrapy获取菜鸟HTML页面数据）

文章结构 * – 1、爬虫概念简介 – 2、爬虫的流程 – 3、数据解析 – + （1）bs4解析 + * （I）根据标签名查找 s…

Python 2023年10月2日
0046
pytest系列——allure（四）之在测试用例添加描述（@allure.description()）

前言 allure支持往测试报告中对测试用例添加非常详细的描述语用来描述测试用例详情；这对阅读测试报告的人来说非常的友好，可以清晰的知道每个测试用例的详情。 allure添加描述的…

Python 2023年9月14日
0037
pandas：查看CSV、Excel表格及数据属性

pandas：查看表格及数据属性 0 操作学习所用数据 1 数据描述 * 1.1 df.head()/ df.tail() 查看表格 – 1.1.1查看前3行表格 1….

Python 2023年8月16日
0059
Pygame对于视频播放的实现

当我学习pygame的时候遇到了一个问题：pygame是否可以播放视频？于是我找到了pygame的对应功能函数 video = pygame.movie.Movie(”) 但是…

Python 2023年9月19日
0048
pandas DataFrame 按照30s 向下取整

print(ss[‘time’]) 0 2014-01-21 03:31:111 2014-01-21 04:53:552 2014-01-21 05:16:183 2014-01…

Python 2023年8月8日
0039
Python时间序列分析–ARIMA模型实战案例

Python时间序列分析–ARIMA模型实战案例,利用ARIMA模型对时间序列进行分析的经典案例（详细代码）本文将介绍使用Python来完成时间序列分析ARIMA模型的完整步骤与…

Python 2023年8月2日
0042
python实现贪吃蛇小游戏

运行效果文章目录运行效果 1.开发环境 2.数据结构 3. 设计思路 * 3.1 贪吃蛇移动问题 3.2 贪吃蛇吃食物问题 3.3 贪吃蛇加长身段问题 3.4 游戏结束判定 3…

Python 2023年9月23日
0062

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

数据科学库Python——Pandas数据合并与分组聚合_2（join和merge）

（1）连接键 on

（2）索引连接 lef/right_index

大家都在看