【干货原创】厉害了，在Pandas中用SQL来查询数据，效率超高

2023年6月11日下午6:39 • 人工智能 • 阅读 71

今天我们继续来讲一下 Pandas和 SQL之间的联用，我们其实也可以在 Pandas当中使用 SQL语句来筛选数据，通过 Pandasql模块来实现该想法，首先我们来安装一下该模块

pip install pandasql

要是你目前正在使用 jupyter notebook，也可以这么来下载

!pip install pandasql

导入数据

我们首先导入数据

import pandas as pd
from pandasql import sqldf
df = pd.read_csv("Dummy_Sales_Data_v1.csv", sep=",")
df.head()

output

我们先对导入的数据集做一个初步的探索性分析，

df.info()

output


RangeIndex: 9999 entries, 0 to 9998
Data columns (total 12 columns):
 #   Column               Non-Null Count  Dtype  
 0   OrderID             9999 non-null   int64  
 1   Quantity            9999 non-null   int64  
 2   UnitPrice_USD       9999 non-null   int64  
 3   Status              9999 non-null   object 
 4   OrderDate           9999 non-null   object 
 5   Product_Category    9963 non-null   object 
 6   Sales_Manager       9999 non-null   object 
 7   ShippingCost_USD    9999 non-null   int64  
 8   Delivery_Time_Days  9948 non-null   float64
 9   Shipping_Address    9999 non-null   object 
 10  Product_Code        9999 non-null   object 
 11  OrderCode           9999 non-null   int64  
dtypes: float64(1), int64(5), object(6)
memory usage: 937.5+ KB

用 `SQL` 筛选出若干列来

我们先尝试筛选出 OrderID、 Quantity、 Sales_Manager、 Status等若干列数据，用 SQL语句应该是这么来写的

SELECT OrderID, Quantity, Sales_Manager, \
Status, Shipping_Address, ShippingCost_USD \
FROM df

与 Pandas模块联用的时候就这么来写

query = "SELECT OrderID, Quantity, Sales_Manager,\
Status, Shipping_Address, ShippingCost_USD \
FROM df"

df_orders = sqldf(query)
df_orders.head()

output

`SQL` 中带 `WHERE` 条件筛选

我们在 SQL语句当中添加指定的条件进而来筛选数据，代码如下

query = "SELECT * \
        FROM df_orders \
        WHERE Shipping_Address = 'Kenya'"

df_kenya = sqldf(query)
df_kenya.head()

output

而要是条件不止一个，则用AND来连接各个条件，代码如下

query = "SELECT * \
        FROM df_orders \
        WHERE Shipping_Address = 'Kenya' \
        AND Quantity

output

分组

同理我们可以调用 SQL当中的 GROUP BY来对筛选出来的数据进行分组，代码如下

query = "SELECT Shipping_Address, \
        COUNT(OrderID) AS Orders \
        FROM df_orders \
        GROUP BY Shipping_Address"

df_group = sqldf(query)
df_group.head(10)

output

排序

而排序在 SQL当中则是用 ORDER BY，代码如下

query = "SELECT Shipping_Address, \
        COUNT(OrderID) AS Orders \
        FROM df_orders \
        GROUP BY Shipping_Address \
        ORDER BY Orders"

df_group = sqldf(query)
df_group.head(10)

output

数据合并

我们先创建一个数据集，用于后面两个数据集之间的合并，代码如下

query = "SELECT OrderID,\
        Quantity, \
        Product_Code, \
        Product_Category, \
        UnitPrice_USD \
        FROM df"
df_products = sqldf(query)
df_products.head()

output

我们这里采用的两个数据集之间的交集，因此是 INNER JOIN，代码如下

query = "SELECT T1.OrderID, \
        T1.Shipping_Address, \
        T2.Product_Category \
        FROM df_orders T1\
        INNER JOIN df_products T2\
        ON T1.OrderID = T2.OrderID"

df_combined = sqldf(query)
df_combined.head()

output

与 `LIMIT` 之间的联用

在 SQL当中的 LIMIT是用于限制查询结果返回的数量的，我们想看查询结果的前10个，代码如下

query = "SELECT OrderID, Quantity, Sales_Manager, \ 
Status, Shipping_Address, \
ShippingCost_USD FROM df LIMIT 10"

df_orders_limit = sqldf(query)
df_orders_limit

output

NO. 1

往期推荐

Historical articles

分享、收藏、点赞、在看安排一下？

Original: https://blog.csdn.net/weixin_43373042/article/details/123650344
Author: 欣一2002
Title: 【干货原创】厉害了，在Pandas中用SQL来查询数据，效率超高

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/601006/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

Yolov5+Deepsort+Slowfast实现实时动作检测

原作者对repo的介绍： Here are some details about our modification: we choose yolov5 as an object d…

人工智能 2023年7月9日
0089
2021哈工大机器学习期末

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、C币套餐、付费专栏及课程。 Original: https:…

人工智能 2023年6月15日
0061
深入理解深度学习——用Embedding处理分类特征

分类目录：《深入理解深度学习》总目录传统机器学习的输入数据中一般含有分类特征，对这些特征或字段的处理是特征工程的重要内容之一。分类（Categorical）特征也被称为离散特征，…

人工智能 2023年7月1日
0068
Transformer解读

Transformer解读最近开始研究Transformer系列的东西，读了Transformer那篇论文Attention is All You Need，也查了一些资料，算是…

人工智能 2023年5月28日
00100
Python数据分析入门（1）——数据分析基础步骤知识

数据分析的步骤第一步：提出问题第二步：收集数据第三步：数据处理和清洗第四步：数据分析第五步：可视化，得出结论一、提出问题一个数据分析的过程，其实是从数据中得到结论的过程。但分…

人工智能 2023年6月19日
0081
【Pytorch深度学习50篇】·······第六篇：【常见损失函数篇】—–BCELoss及其变种

新年新气象，兄弟们新年快乐。撒花！！！之前我们的项目已经讲过了常见的4种深度学习任务（当然还有一些没有接触到的，例如GAN和今年大红的Transformer），今天这个blog我…

人工智能 2023年7月21日
0060
DBNet实战：详解DBNet训练与测试（pytorch）

论文连接：https://arxiv.org/pdf/1911.08947.pdf github链接：github.com 网络结构首先，图像输入特征提取主干，提取特征；其次，…

人工智能 2023年7月21日
0076
【基于Matlab，svm的农作物叶片的识别与分类】GUI,源代码

关于SVM 20世纪90年代，支持向量机SVM被Cortes和Vapnik率先研究出，它可在小样本中得到较为精确的训练样本，在非线性中通过转换计算出分类间隔，并能够进行有效的机器学…

人工智能 2023年7月1日
0085
Python训练了个模型，怎么交给Java用呢？

最近碰到几个人问，如何实现 java 调用他们写好的 Python 应用（模型）,这里我就把几种常见的办法做下汇总整理。喜欢本文记得收藏、关注、点赞。【注】文末提供技术交流群 …

人工智能 2023年6月19日
00119
ERROR 1064 (42000): You have an error in your SQL syntax； check the manual that corresponds to your

遇到这个报错？不知道怎么办？要哭了？ ERROR 1064 (42000): You have an error in your SQL syntax; check the man…

人工智能 2023年7月29日
0054
python图案填充_Python:使用matplotlib颜色和图案填充字典

fill_betweenx() . 我成功地使用了如下示例中的列表。然而,我正在努力找出我可以用类似的方式使用字典。其目的是词典第一部分中的数字与dataframe中的一列相关,当…

人工智能 2023年7月7日
0055
写在Go语言招生之际

写在Go语言招生之际，谈谈这两年所见所想，希望能对你有启发。前两天看视频看到一个评论，先生愿教我不愿学，时也！命也！作为一名讲师深有感触。 1那个时候有几十万的Java观众…

人工智能 2023年7月28日
0074
Part13:Pandas 的Concat合并【实现Concat合并】

Pandas实现数据的合并concat 使用场景: 批量合并相同格式的Excel、给DataFrame添加行、给DataFrame添加列一句话说明concat语法: 。使用某种合…

人工智能 2023年7月6日
0083
014 Python 的数据类型（数字、字符串、列表、字典）

#!/usr/bin/env python -*- coding:utf-8 -*- Datatime:2022/7/24 20:31 Filename:014 Python 的数…

人工智能 2023年6月4日
0069
【DETR 论文解读】End-to-End Object Detection with Transformer

目录前言一、整体架构二、基于集合预测的损失函数 * 2.1、二分图匹配确定有效预测框 2.2、损失函数三、前向推理四、掉包版代码五、一些问题 Reference 前言 …

人工智能 2023年7月10日
0057
TensorFlow可以用于哪些AI算法

TensorFlow在AI算法中的应用 TensorFlow是一个基于数据流图的开源机器学习框架，广泛应用于人工智能领域。它提供了丰富的工具和库，可以用于各种不同类型的AI算法。本…

人工智能 2023年12月30日
0030

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

【干货原创】厉害了，在Pandas中用SQL来查询数据，效率超高

导入数据

用 SQL 筛选出若干列来

SQL 中带 WHERE 条件筛选

分组

排序

数据合并

与 LIMIT 之间的联用

大家都在看

用 `SQL` 筛选出若干列来

`SQL` 中带 `WHERE` 条件筛选

与 `LIMIT` 之间的联用