5个例子介绍Pandas的merge并对比SQL中join

本文的重点是在合并和连接操作方面比较Pandas和SQL。Pandas是一个用于Python的数据分析和操作库。SQL是一种用于管理关系数据库中的数据的编程语言。两者都使用带标签的行和列的表格数据。

Pandas的merge函数根据公共列中的值组合dataframe。SQL中的join可以执行相同的操作。这些操作非常有用,特别是当我们在表的不同数据中具有共同的数据列(即数据点)时。

5个例子介绍Pandas的merge并对比SQL中join

pandas的merge图解

我创建了两个简单的dataframe和表,通过示例来说明合并和连接。

5个例子介绍Pandas的merge并对比SQL中join

“cust”包含5个客户的3条信息。列是id、年龄和类别。

5个例子介绍Pandas的merge并对比SQL中join

“purc”包含客户id、机票号码和购买金额。

id是共同列的列,所以我们将在合并或联接时使用它。

您可能已经注意到,id列并不完全相同。有些值只存在于一个dataframe中。我们将在示例中看到处理它们的方法。

; 示例1

第一个示例是基于id列中的共享值进行合并或连接。使用默认设置完成了这个任务,所以我们不需要调整任何参数。

import pandas as pd
cust.merge(purc, on='id')

5个例子介绍Pandas的merge并对比SQL中join

Pandas的merge函数不会返回重复的列。另一方面,如果我们选择两个表中的所有列(“*”),则在SQL join中id列是重复的。

mysql> select cust.*, purc.*
    -> from cust join purc
    -> on cust.id = purc.id

;+------+------+------+------+--------+--------+
| id   | age  | ctg  | id   | ticket | amount |
+------+------+------+------+--------+--------+
|    3 |   22 | B    |    3 |   1001 |  24.10 |
|    4 |   29 | C    |    4 |   1002 |  32.50 |
|    5 |   17 | B    |    5 |   1003 |  34.80 |
+------+------+------+------+--------+--------+

示例2

假设我们希望左表中有所有的行,而右表中只有匹配的行。在Pandas中,on参数被更改为”left”。在SQL中,我们使用”left join”而不是”join”关键字。

cust.merge(purc, on='id', how='left')

5个例子介绍Pandas的merge并对比SQL中join
mysql> select cust.*, purc.*
    -> from cust
    -> left join purc
    -> on cust.id = purc.id

;+------+------+------+------+--------+--------+
| id   | age  | ctg  | id   | ticket | amount |
+------+------+------+------+--------+--------+
|    3 |   22 | B    |    3 |   1001 |  24.10 |
|    4 |   29 | C    |    4 |   1002 |  32.50 |
|    5 |   17 | B    |    5 |   1003 |  34.80 |
|    1 |   34 | A    | NULL |   NULL |   NULL |
|    2 |   28 | A    | NULL |   NULL |   NULL |

purcdataframe和表中没有id为1或2的行。因此,purc中的列中填充了这些行的空值。

示例3

如果我们想要看到两个dataframe或表中的所有行,该怎么办?

在Pandas中,这是一个简单的操作,可以通过将’ outer ‘参数传递给on形参来完成。

cust.merge(purc, on='id', how='outer')

5个例子介绍Pandas的merge并对比SQL中join

MySQL没有提供”完整的外连接”,但是我们可以通过两个左连接来实现。

注意:尽管关系数据库管理系统(rdbms)采用的SQL语法基本相同,但可能会有一些细微的差异。因此,最好检查特定RDBMS的文档,看看它是否支持完整的外部连接。

在MySQL中,完整的外连接可以通过两个左连接实现:

mysql> select cust.*, purc.*
    -> from cust left join purc
    -> on cust.id = purc.id
    -> union
    -> select cust.*, purc.*
    -> from purc left join cust
    -> on cust.id = purc.id
;+------+------+------+------+--------+--------+
| id   | age  | ctg  | id   | ticket | amount |
+------+------+------+------+--------+--------+
|    3 |   22 | B    |    3 |   1001 |  24.10 |
|    4 |   29 | C    |    4 |   1002 |  32.50 |
|    5 |   17 | B    |    5 |   1003 |  34.80 |
|    1 |   34 | A    | NULL |   NULL |   NULL |
|    2 |   28 | A    | NULL |   NULL |   NULL |
| NULL | NULL | NULL |    6 |   1004 |  19.50 |
| NULL | NULL | NULL |    7 |   1005 |  26.20 |
+------+------+------+------+--------+--------+

union操作符将多个查询的结果堆叠起来。这类似于Pandas的concat功能。

示例4

合并或联接不仅仅是合并数据。我们可以把它们作为数据分析的工具。例如,我们可以计算每个类别(“ctg”)的总订单金额。

`
cust.merge(purc, on=’id’, how=’left’)[[‘ctg’,’amount’]].groupby(‘ctg’).mean()

ctg amount

Original: https://blog.csdn.net/m0_46510245/article/details/113709087
Author: deephub
Title: 5个例子介绍Pandas的merge并对比SQL中join

原创文章受到原创版权保护。转载请注明出处:https://www.johngo689.com/679058/

转载文章受原作者版权保护。转载请注明原作者出处!

(0)

大家都在看

亲爱的 Coder【最近整理,可免费获取】👉 最新必读书单  | 👏 面试题下载  | 🌎 免费的AI知识星球