【干货原创】Pandas&SQL语法归纳总结，真的太全了

2023年6月11日下午5:26 • 人工智能 • 阅读 90

对于数据分析师而言， Pandas与 SQL可能是大家用的比较多的两个工具，两者都可以对数据集进行深度的分析，挖掘出有价值的信息，但是二者的语法有着诸多的不同，今天小编就来总结归纳一下 Pandas与 SQL这两者之间在语法上到底有哪些不同。

导入数据

对于 Pandas而言，我们需要提前导入数据集，然后再进行进一步的分析与挖掘

import pandas as pd

airports = pd.read_csv('data/airports.csv')
airport_freq = pd.read_csv('data/airport-frequencies.csv')
runways = pd.read_csv('data/runways.csv')

基础语法

在 SQL当中，我们用 SELECT来查找数据， WHERE来过滤数据， DISTINCT来去重， LIMIT来限制输出结果的数量，

输出数据集

## SQL
select * from airports

## Pandas
airports

输出数据集的前三行数据，代码如下

## SQL
select * from airports limit 3

## Pandas
airports.head(3)

对数据集进行过滤筛查

## SQL
select id from airports where ident = 'KLAX'

## Pandas
airports[airports.ident == 'KLAX'].id

对于筛选出来的数据进行去重

## SQL
select distinct type from airport

## Pandas
airports.type.unique()

多个条件交集来筛选数据

多个条件的交集来筛选数据，代码如下

## SQL
select * from airports 
where iso_region = 'US-CA' and 
type = 'seaplane_base'

## Pandas
airports[(airports.iso_region == 'US-CA') & 
(airports.type == 'seaplane_base')]

或者是

## SQL
select ident, name, municipality from airports 
where iso_region = 'US-CA' and
type = 'large_airport'

## Pandas
airports[(airports.iso_region == 'US-CA') &
(airports.type == 'large_airport')][['ident', 'name', 'municipality']]

排序

在 Pandas当中默认是对数据进行升序排序，要是我们希望对数据进行降序排序，需要设定 ascending参数

## SQL
select * from airport_freq
where airport_ident = 'KLAX'
order by type

## Pandas
airport_freq[airport_freq.airport_ident == 'KLAX']
.sort_values('type')

又或者是

## SQL
select * from airport_freq
where airport_ident = 'KLAX'
order by type desc

## Pandas
airport_freq[airport_freq.airport_ident == 'KLAX']
.sort_values('type', ascending=False)

筛选出列表当中的数据

要是我们需要筛选出来的数据在一个列表当中，这里就需要用到 isin()方法，代码如下

## SQL
select * from airports 
where type in ('heliport', 'balloonport')

## Pandas
airports[airports.type.isin(['heliport', 'balloonport'])]

又或者是

## SQL
select * from airports 
where type not in ('heliport', 'balloonport')

## Pandas
airports[~airports.type.isin(['heliport', 'balloonport'])]

删除数据

在 Pandas当中删除数据用的是 drop()方法，代码如下

## SQL
delete from dataframe where col_name = 'MISC'

## Pandas
df = df[df.type != 'MISC']
df.drop(df[df.type == 'MISC'].index)

更新数据

在 SQL当中更新数据使用的是 update和 set方法，代码如下

### SQL
update airports set home_link = '......'
where ident == 'KLAX'

### Pandas
airports.loc[airports['ident'] == 'KLAX', 'home_link'] = '......'

调用统计函数

对于给定的数据集，如下图所示

runways.head()

output

我们调用 min()、 max()、 mean()以及 median()函数作用于 length_ft这一列上面，代码如下

## SQL
select max(length_ft), min(length_ft),
avg(length_ft), median(length_ft) from runways

## Pandas
runways.agg({'length_ft': ['min', 'max', 'mean', 'median']})

合并两表格

在 Pandas当中合并表格用的是 pd.concat()方法，在 SQL当中则是 UNION ALL，代码如下

## SQL
select name, municipality from airports
where ident = 'KLAX'
union all
select name, municipality from airports
where ident = 'KLGB'

## Pandas
pd.concat([airports[airports.ident == 'KLAX'][['name', 'municipality']],
airports[airports.ident == 'KLGB'][['name', 'municipality']]])

分组

顾名思义也就是 groupby()方法，代码如下

## SQL
select iso_country, type, count(*) from airports
group by iso_country, type
order by iso_country, type

## Pandas
airports.groupby(['iso_country', 'type']).size()

分组之后再做筛选

在 Pandas当中是在进行了 groupby()之后调用 filter()方法，而在 SQL当中则是调用 HAVING方法，代码如下

## SQL
select type, count(*) from airports
where iso_country = 'US'
group by type
having count(*) > 1000
order by count(*) desc

## Pandas
airports[airports.iso_country == 'US']
.groupby('type')
.filter(lambda g: len(g) > 1000)
.groupby('type')
.size()
.sort_values(ascending=False)

TOP N records

代码如下

## SQL 
select 列名 from 表名
order by size
desc limit 10

## Pandas
表名.nlargest(10, columns='列名')

在公众号后台回复【 20220317】获取源数据

NO. 1

往期推荐

Historical articles

分享、收藏、点赞、在看安排一下？

Original: https://blog.csdn.net/weixin_43373042/article/details/123564614
Author: 欣一2002
Title: 【干货原创】Pandas&SQL语法归纳总结，真的太全了

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/600756/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

Python 中的 PIL 库

一、简介 Pillow 是 Python 中较为基础的图像处理库，主要用于图像的基本处理，比如裁剪图像、调整图像大小和图像颜色处理等。与 Pillow 相比，OpenCV 和 S…

人工智能 2023年5月26日
0077
使用 CNN 进行图像分类 – 理解计算机视觉

介绍在计算机视觉中，我们有一个卷积神经网络，它非常适用于计算机视觉任务，例如图像分类、对象检测、图像分割等等。图像分类是当今时代最需要的技术之一，它被用于医疗保健、商业等…

人工智能 2023年7月13日
0067
Python数据分析摘要（1）- DataFrame数据定位，筛选和修改

数据分析在社会和经济生活中扮演着越来越重要的角色。因此，我在接下的几篇blog中阐释比较常用的数据分析的代码，如有不妥，欢迎指正！数据分析第一个常用的库是pandas。相比较nu…

人工智能 2023年7月7日
0062
有关于目标检测中准确率，精确率，召回率的解释

有关于目标检测中准确率，精确率，召回率的解释声明：本人目前仅是小白，如有不对的地方，希望指正，谢谢！正文：首先我们都知道在目标检测中存在样本概念。而样本又分为正样本和负样本；正样…

人工智能 2023年7月12日
0057
python实现K均值聚类算法

之前做大作业的时候本来想用聚类法给点集分类的，但是太复杂了，于是最后没有采用这个方案。现在把之前做的一些工作整理出来写个小博客。 K-means聚类法原理：聚类是一个将数据集中在…

人工智能 2023年6月2日
0085
深度学习之数据集标注

学习深度学习训练网络时，都会用到数据集，网络中有很多公开数据集，coco、vot等都可以拿来训练。但是，使用大众数据集训练的网络，可能对自己的数据并没有很好的测试结果。就需要自己…

人工智能 2023年6月15日
00161
MLCV（第二期）学习笔记

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、C币套餐、付费专栏及课程。 Original: https:…

人工智能 2023年6月22日
0068
Keras深度学习实战——基于ResNet模型实现性别分类

Keras深度学习实战——基于ResNet模型实现性别分类 * – 0. 前言 – 1. ResNet 架构简介 – 2. 基于预训练的 Res…

人工智能 2023年7月2日
0068
蓬莱小课：统计学数据分析须知这些：P值、T检验、卡方检验、假设检验……

P值的统计学意义是什么结果的统计学意义是结果真实程度（能够代表总体）的一种估计方法。专业上，p值为结果可信程度的一个递减指标，p值越大，我们越不能认为样本中变量的关联是总体中各…

人工智能 2023年7月16日
0068
Python内置time模块中，time.time()函数和time.sleep()函数的用法

time模块 time模块是Python内置模块，能让Python程序读取系统时钟的当前使时间。在time模块中，time.time( ) 和time.sleep( )函数是最常用…

人工智能 2023年7月6日
0083
超详细Ubuntu安装PyTorch步骤

目录 STEP1：进入PyTorch官网查看安装版本和指令 STEP2：为PyTorch单独创建conda环境 STEP3：进入STEP2中创建的conda环境 STEP4：输入S…

人工智能 2023年7月23日
0094
【计算机视觉】图像增强——图像的形态学操作

个人简介： 📦个人主页：赵四司机🏆学习方向：JAVA后端开发⏰往期文章：SpringBoot项目整合微信支付🔔博主推荐网站：牛客网刷题|面试|找工作神器📣种一棵树最好的时间是十年…

人工智能 2023年7月26日
0064
图像对比算法有哪些,图像对比算法是什么

图像比对的原理或者算法原理如下：首先两张图要配准（可以姑且理解为对准），然后做减法就可以得到两张图不同的地方。题主可以先从图像配准开始学习。关于编程语言和工具：在C/C++下的…

人工智能 2023年7月12日
0059
Flask 报错：WARNING: This is a development server. Do not use it in a production deployment.

因为最近尝试部署flask 的项目到服务器，所以遇到特别多的琐碎事。在win 下就没报错，一放到线上就各种报错！估计我是写的代码或逻辑上还不够规范。继续加油！因为部署到服务器，在…

人工智能 2023年7月6日
0060
机器学习实战 | LightGBM建模应用详解

作者：韩信子@ShowMeAI教程地址：https://www.showmeai.tech/tutorials/41本文地址：https://www.showmeai.tech/a…

人工智能 2023年6月15日
0072
A星算法优化（一）启发函数

基于Python语言对A星算法进行优化：(视频中会拿python与matlab作对比) 源码地址：https://github.com/Grizi-ju/ros_program/b…

人工智能 2023年7月6日
0061

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31