数据分析大作战，SQL V.S. Python，来看看这些考题你都会吗 ⛵

2023年6月14日下午10:59 • 数据库 • 阅读 102

💡 作者：韩信子@ShowMeAI
📘 数据分析实战系列：https://www.showmeai.tech/tutorials/40
📘 本文地址：https://www.showmeai.tech/article-detail/314
📢 声明：版权所有，转载请联系平台与作者并注明出处
📢 收藏ShowMeAI查看更多精彩内容

对于数据分析师、数据科学家等数据从业人员来说，我们有很多的工具可以帮助我们探索与分析数据，发现数据之下的分布与模式规律，最常见和实用的技能是使用 SQL 和 Python 进行数据分析。SQL 和 Python 进行数据分析各有优势:

SQL 支持很多数据库（如 MS SQL、MySQL、SQLite、PostgreSQL等），可以很方便跨数据库使用，而且无需编程语言基础，可以快速上手。
Python 数据分析（这里指的使用 Pandas 工具库）比较灵活，可以进行数据清理、清洗、格式变化、复杂计算等，还支持很好的可视化，并能无缝衔接后续进一步深入挖掘与建模等流程。

但在大部分需求与功能上，SQL 和 Pandas 都是可以完成的，在本篇内容中，ShowMeAI就帮大家把所有的核心数据分析功能梳理处理，并用 SQL 和 Pandas 进行实现，我们可以轻松对比学习。

对于 Python 数据分析和 SQL 更详尽的内容，欢迎大家查阅ShowMeAI制作的系列教程和速查表：

💡 场景&数据集

我们这里使用到的是 🏆 mtcars数据集，它是一份1974年摩托风尚杂志的数据（1974 Motor Trend Magazine），你可以在这里下载到csv文本格式的文件，能够导入数据库的db格式文件可以在这里下载。

🏆 实战数据集下载（百度网盘）：公众号『ShowMeAI研究中心』回复『实战』，或者点击这里获取本文 [21]SQL与Pandas数据分析实操大全『 mtcars数据集』

⭐ ShowMeAI官方GitHub：https://github.com/ShowMeAI-Hub

我们先用python对数据进行读取，读取为pandas dataframe格式。

import numpy as np
import pandas as pd

mtcars_df = pd.read_csv("mtcars.csv")

下面我们梳理一下数据分析中会使用到的核心技能，并对比SQL和Pandas分别是如何实现这些功能的。

💡 数据选择

有时我们需要返回数据集的列(字段)子集。例如，我们要从 mtcars数据集中选择 Miles/(US) 加仑 ( mpg), 气缸数( cyl) 和总马力 ( hp）这几个字段对应的数据。

📌 SQL

我们使用标准的 SELECT语句就可以完成数据选择。

SELECT
      mpg,
      disp,
      cyl
FROM mtcars

##     mpg  disp cyl
## 1  21.0 160.0   6
## 2  21.0 160.0   6
## 3  22.8 108.0   4
.
.
.
## 30 19.7 145.0   6
## 31 15.0 301.0   8
## 32 21.4 121.0   4

📌 Pandas

我们直接把字段子集的列表给到 dataframe 即可取出对应的数据子集。

mtcars_df[['mpg', 'disp', 'cyl']]
##      mpg   disp  cyl
## 0   21.0  160.0    6
## 1   21.0  160.0    6
## 2   22.8  108.0    4
.
.
.
## 29  19.7  145.0    6
## 30  15.0  301.0    8
## 31  21.4  121.0    4

💡 限制

有时候我们希望提前查看一下数据集，但是在总体数据集很大的情况下，我们不能查看所有数据，我们会做一个限制，比如查看数据的前 5 行对表的结构和数据类型进行一个速览。

📌 SQL

SQL有 LIMIT n语法可以限制与返回数据前 n行。

SELECT *
FROM mtcars
  LIMIT 5;

##    mpg cyl disp  hp drat    wt  qsec vs am gear carb             model
## 1 21.0   6  160 110 3.90 2.620 16.46  0  1    4    4         Mazda RX4
## 2 21.0   6  160 110 3.90 2.875 17.02  0  1    4    4     Mazda RX4 Wag
## 3 22.8   4  108  93 3.85 2.320 18.61  1  1    4    1        Datsun 710
## 4 21.4   6  258 110 3.08 3.215 19.44  1  0    3    1    Hornet 4 Drive
## 5 18.7   8  360 175 3.15 3.440 17.02  0  0    3    2 Hornet Sportabout

📌 Pandas

Pandas通过 df.head(n = 5)的参数传入来返回头部 5行

mtcars_df.head(n = 5)
##     mpg  cyl   disp   hp  drat  ...  vs  am  gear  carb              model
## 0  21.0    6  160.0  110  3.90  ...   0   1     4     4          Mazda RX4
## 1  21.0    6  160.0  110  3.90  ...   0   1     4     4      Mazda RX4 Wag
## 2  22.8    4  108.0   93  3.85  ...   1   1     4     1         Datsun 710
## 3  21.4    6  258.0  110  3.08  ...   1   0     3     1     Hornet 4 Drive
## 4  18.7    8  360.0  175  3.15  ...   0   0     3     2  Hornet Sportabout
##
## [5 rows x 12 columns]

💡 统计计数

如果我们要对数据进行统计计数，SQL 和 Pandas 的实现方式也不太一样。

📌 SQL

SQL通过 count(*)语法返回数据集的计数（例如下面是总行数）。

SELECT COUNT(*)
FROM
  mtcars LIMIT 5;

##   COUNT(*)
## 1       32

📌 Pandas

Pandas dataframe 有一个属性 shape，它返回数据集中的行数和列数。

nrows, ncols = mtcars_df.shape
print("Number of Rows: ", nrows)
## Number of Rows:  32

💡 排序

在 SQL 和 Pandas 中，我们可以根据一列或多列的值对数据进行升序或降序排列。

📌 SQL

SQL通过 ORDER BY来对数据进行排序，默认升序。

SELECT *
FROM mtcars
  ORDER BY mpg
  LIMIT 5;

##    mpg cyl disp  hp drat    wt  qsec vs am gear carb               model
## 1 10.4   8  472 205 2.93 5.250 17.98  0  0    3    4  Cadillac Fleetwood
## 2 10.4   8  460 215 3.00 5.424 17.82  0  0    3    4 Lincoln Continental
## 3 13.3   8  350 245 3.73 3.840 15.41  0  0    3    4          Camaro Z28
## 4 14.3   8  360 245 3.21 3.570 15.84  0  0    3    4          Duster 360
## 5 14.7   8  440 230 3.23 5.345 17.42  0  0    3    4   Chrysler Imperial

我们也可以指定降序排列（ DESC)。

SELECT *
FROM mtcars
  ORDER BY mpg DESC
  LIMIT 5;

##    mpg cyl disp  hp drat    wt  qsec vs am gear carb          model
## 1 33.9   4 71.1  65 4.22 1.835 19.90  1  1    4    1 Toyota Corolla
## 2 32.4   4 78.7  66 4.08 2.200 19.47  1  1    4    1       Fiat 128
## 3 30.4   4 75.7  52 4.93 1.615 18.52  1  1    4    2    Honda Civic
## 4 30.4   4 95.1 113 3.77 1.513 16.90  1  1    5    2   Lotus Europa
## 5 27.3   4 79.0  66 4.08 1.935 18.90  1  1    4    1      Fiat X1-9

我们也可以同时指定按照某些列升序，某些列降序进行排序，例如下面我们按照 mpg升序和 model降序对数据排列。

SELECT *
FROM mtcars
  ORDER BY mpg ASC, model DESC
  LIMIT 5;

##    mpg cyl disp  hp drat    wt  qsec vs am gear carb               model
## 1 10.4   8  460 215 3.00 5.424 17.82  0  0    3    4 Lincoln Continental
## 2 10.4   8  472 205 2.93 5.250 17.98  0  0    3    4  Cadillac Fleetwood
## 3 13.3   8  350 245 3.73 3.840 15.41  0  0    3    4          Camaro Z28
## 4 14.3   8  360 245 3.21 3.570 15.84  0  0    3    4          Duster 360
## 5 14.7   8  440 230 3.23 5.345 17.42  0  0    3    4   Chrysler Imperial

📌 Pandas

Pandas中的 sort_values函数可以完成排序。

mtcars_df.sort_values(by = 'mpg').head(n = 5)
##      mpg  cyl   disp   hp  drat  ...  vs  am  gear  carb                model
## 15  10.4    8  460.0  215  3.00  ...   0   0     3     4  Lincoln Continental
## 14  10.4    8  472.0  205  2.93  ...   0   0     3     4   Cadillac Fleetwood
## 23  13.3    8  350.0  245  3.73  ...   0   0     3     4           Camaro Z28
## 6   14.3    8  360.0  245  3.21  ...   0   0     3     4           Duster 360
## 16  14.7    8  440.0  230  3.23  ...   0   0     3     4    Chrysler Imperial
##
## [5 rows x 12 columns]

我们可以在 sort_values函数中指定排序字段和方式。

mtcars_df.sort_values(by = 'mpg', ascending=False).head(n = 5)
##      mpg  cyl  disp   hp  drat  ...  vs  am  gear  carb           model
## 19  33.9    4  71.1   65  4.22  ...   1   1     4     1  Toyota Corolla
## 17  32.4    4  78.7   66  4.08  ...   1   1     4     1        Fiat 128
## 27  30.4    4  95.1  113  3.77  ...   1   1     5     2    Lotus Europa
## 18  30.4    4  75.7   52  4.93  ...   1   1     4     2     Honda Civic
## 25  27.3    4  79.0   66  4.08  ...   1   1     4     1       Fiat X1-9
##
## [5 rows x 12 columns]

当我们要对多个字段排序并指定不同的规则时，只要在 sort_values中传入对应的字段和排序规则列表即可。

mtcars_df.sort_values(by = ['mpg', 'model'], ascending=[True, False]).head(n = 5)
##      mpg  cyl   disp   hp  drat  ...  vs  am  gear  carb                model
## 15  10.4    8  460.0  215  3.00  ...   0   0     3     4  Lincoln Continental
## 14  10.4    8  472.0  205  2.93  ...   0   0     3     4   Cadillac Fleetwood
## 23  13.3    8  350.0  245  3.73  ...   0   0     3     4           Camaro Z28
## 6   14.3    8  360.0  245  3.21  ...   0   0     3     4           Duster 360
## 16  14.7    8  440.0  230  3.23  ...   0   0     3     4    Chrysler Imperial
##
## [5 rows x 12 columns]

💡 新字段生成

假如我们要基于目前已有字段 mpg和 wt创建两个新列 kg-per-gallon kpl和 wt_kg，计算后保留小数点后两位，那 SQL 和 Pandas 的计算方式分别如下：

📌 SQL

我们通过 SELECT可以直接构建新的字段与重命名，SQL 中也支持用 ROUND函数对数值精度进行控制。

SELECT ROUND(mpg*1.60934, 2) AS kpg,
       ROUND(wt*1000*0.453592, 2) AS wt_kg
FROM mtcars LIMIT 5;

##     kpg   wt_kg
## 1 33.80 1188.41
## 2 33.80 1304.08
## 3 36.69 1052.33
## 4 34.44 1458.30
## 5 30.09 1560.36

📌 Pandas

Pandas 创建新字段也非常简单，对于数值进行精度控制需要借助 numpy 和 round 函数。

mtcars_df['kpg'] = np.round(mtcars_df['mpg']*1.60934, 2)
mtcars_df['wt_kg'] = np.round(mtcars_df['wt']*1000*0.453592, 2)
mtcars_df[['kpg', 'wt_kg']].head(n = 5)

##      kpg    wt_kg
## 0  33.80  1188.41
## 1  33.80  1304.08
## 2  36.69  1052.33
## 3  34.44  1458.30
## 4  30.09  1560.36

💡 数据选择

我们经常需要对数据进行条件选择，SQL 中会通过 WHERE语句来进行条件选择，而在 Pandas 中我们可以直接在 dataframe 后添加单一或组合条件来进行数据选择。具体示例如下：

📌 SQL

从 mtcars 数据集中选择档位为4（ gear为4）的汽车如下

SELECT *
FROM mtcars
  WHERE gear = 4;

##     mpg cyl  disp  hp drat    wt  qsec vs am gear carb          model
## 1  21.0   6 160.0 110 3.90 2.620 16.46  0  1    4    4      Mazda RX4
## 2  21.0   6 160.0 110 3.90 2.875 17.02  0  1    4    4  Mazda RX4 Wag
## 3  22.8   4 108.0  93 3.85 2.320 18.61  1  1    4    1     Datsun 710
## 4  24.4   4 146.7  62 3.69 3.190 20.00  1  0    4    2      Merc 240D
## 5  22.8   4 140.8  95 3.92 3.150 22.90  1  0    4    2       Merc 230
## 6  19.2   6 167.6 123 3.92 3.440 18.30  1  0    4    4       Merc 280
## 7  17.8   6 167.6 123 3.92 3.440 18.90  1  0    4    4      Merc 280C
## 8  32.4   4  78.7  66 4.08 2.200 19.47  1  1    4    1       Fiat 128
## 9  30.4   4  75.7  52 4.93 1.615 18.52  1  1    4    2    Honda Civic
## 10 33.9   4  71.1  65 4.22 1.835 19.90  1  1    4    1 Toyota Corolla
## 11 27.3   4  79.0  66 4.08 1.935 18.90  1  1    4    1      Fiat X1-9
## 12 21.4   4 121.0 109 4.11 2.780 18.60  1  1    4    2     Volvo 142E

如果我们需要使用组合条件，比如选择 gear为4以及气缸数 cyl小于或等于 6的数据，那在where 语句中我们可以用 AND等进行条件组合：

SELECT *
FROM mtcars
  WHERE gear = 4 AND cyl

如果上面两个条件不是且关系，而是满足任何一个都可以，那我们把条件组合方式换成 OR

SELECT *
FROM mtcars
  WHERE gear = 4 OR cyl

📌 Pandas

从 mtcars中返回 gear == 4的数据

mtcars_df[mtcars_df.gear == 4]
##      mpg  cyl   disp   hp  drat  ...  gear  carb           model    kpg    wt_kg
## 0   21.0    6  160.0  110  3.90  ...     4     4       Mazda RX4  33.80  1188.41
## 1   21.0    6  160.0  110  3.90  ...     4     4   Mazda RX4 Wag  33.80  1304.08
## 2   22.8    4  108.0   93  3.85  ...     4     1      Datsun 710  36.69  1052.33
## 7   24.4    4  146.7   62  3.69  ...     4     2       Merc 240D  39.27  1446.96
## 8   22.8    4  140.8   95  3.92  ...     4     2        Merc 230  36.69  1428.81
## 9   19.2    6  167.6  123  3.92  ...     4     4        Merc 280  30.90  1560.36
## 10  17.8    6  167.6  123  3.92  ...     4     4       Merc 280C  28.65  1560.36
## 17  32.4    4   78.7   66  4.08  ...     4     1        Fiat 128  52.14   997.90
## 18  30.4    4   75.7   52  4.93  ...     4     2     Honda Civic  48.92   732.55
## 19  33.9    4   71.1   65  4.22  ...     4     1  Toyota Corolla  54.56   832.34
## 25  27.3    4   79.0   66  4.08  ...     4     1       Fiat X1-9  43.93   877.70
## 31  21.4    4  121.0  109  4.11  ...     4     2      Volvo 142E  34.44  1260.99
##
## [12 rows x 14 columns]

如果要求 gear == 4 以及 cyl <= 6< code>，那 Pandas 写法如下：

mtcars_df[(mtcars_df.gear == 4) & (mtcars_df.cyl

如果要求 gear == 4 或 cyl <= 6< code>，那 Pandas 写法如下：

mtcars_df[(mtcars_df.gear == 4) | (mtcars_df.cyl

💡 数据分组

我们对数据进行分析，分组和按组统计是最重要的核心功能，我们来看看 SQL 和 Pandas 都分别如何对数据分组：

📌 SQL

在 SQL 中可以借助于 GROUP BY语句对数据进行分组，例如下面是我们基于 gear 字段进行数据分组。

SELECT
    gear,
    COUNT(*)
    FROM mtcars
        GROUP BY gear;

##   gear COUNT(*)
## 1    3       15
## 2    4       12
## 3    5        5

Pandas 中可以直接对 dataframe 使用 groupby 函数进行数据分组，如下：

📌 Pandas

mtcars_df.groupby("gear").count()['model']
## gear
## 3    15
## 4    12
## 5     5
## Name: model, dtype: int64

💡 统计均值

非常常见的统计任务之一是对数据进行均值统计，对应的 SQL 和 Pandas 操作如下：

📌 SQL

SELECT
    AVG(wt),
    AVG(hp),
    AVG(mpg)
FROM mtcars;

##   AVG(wt)  AVG(hp) AVG(mpg)
## 1 3.21725 146.6875 20.09062

📌 Pandas

mtcars_df[['wt', 'hp', 'mpg']].mean()

## wt       3.217250
## hp     146.687500
## mpg     20.090625
## dtype: float64

💡 方差

对于方差而言，SQL 和 Pandas 的计算方式如下：

📌 SQL

SELECT AVG(wt*wt) - AVG(wt)*AVG(wt) AS WT,
        AVG(hp*hp) - AVG(hp)*AVG(hp) AS HP,
        AVG(mpg*mpg) - AVG(mpg)*AVG(mpg) AS MPG
FROM mtcars;

##          WT       HP      MPG
## 1 0.9274609 4553.965 35.18897

📌 Pandas

mtcars_df[['wt', 'hp', 'mpg']].var(ddof=0)

## wt        0.927461
## hp     4553.964844
## mpg      35.188975
## dtype: float64

💡 极差/范围

另外一个常用统计量是极差（最大值 – 最小值），SQL 和 Pandas 的做法如下：

📌 SQL

SELECT min(gear) AS MIN,
           max(gear) AS MAX,
           sum(gear) AS TOTAL,
           max(gear)-min(gear) AS RANGE
FROM mtcars;

##   MIN MAX TOTAL RANGE
## 1   3   5   118     2

📌 Pandas

Min
mtcars_df['gear'].min()
## 3

#Max
mtcars_df['gear'].max()
## 5

#Total
mtcars_df['gear'].sum()
## 118

#Range
mtcars_df['gear'].max() - mtcars_df['gear'].min()
## 2

💡 总结

在本篇中，ShowMeAI将使用 SQL 和 Python（Pandas 工具库）进行数据分析做了梳理和对比，两个都是非常常见的工具和方式，大家可以对比学习掌握后灵活使用。

参考资料

📘 图解数据分析：从入门到精通系列教程：https://www.showmeai.tech/tutorials/33
📘 数据科学工具库速查表 | Pandas 速查表：https://www.showmeai.tech/article-detail/101
📘 编程语言速查表 | SQL 速查表：https://www.showmeai.tech/article-detail/99

Original: https://www.cnblogs.com/showmeai/p/16628114.html
Author: ShowMeAI
Title: 数据分析大作战，SQL V.S. Python，来看看这些考题你都会吗 ⛵

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/612948/

转载文章受原作者版权保护。转载请注明原作者出处！

数据库

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

java.sql.SQLException: The server time zone value is unrecognized

在写Mysql数据库连接工具的时候出现了这样的报错，其实原因写的挺清楚的就是在连接的时候没有加上时区的信息；解决办法就是在JDBC连接的URL里面加上serverTimezon…

数据库 2023年6月6日
0097
21浙比武

可以将获得的windows镜像先挂载获取SAM和SYSTEM注册表文件，然后使用mimikatz 提取windows的密码ntml哈希值 <span class=”ne-te…

数据库 2023年6月11日
00107
在 Pisa-Proxy 中，如何利用 Rust 实现 MySQL 代理

一、前言背景在 Database Mesh 中，Pisanix 是一套以数据库为中心的治理框架，为用户提供了诸多治理能力，例如：数据库流量治理，SQL 防火墙，负载均衡和审计等…

数据库 2023年6月16日
00157
Array源码刨析

404. 抱歉，您访问的资源不存在。可能是网址有误，或者对应的内容被删除，或者处于私有状态。代码改变世界，联系邮箱 contact@cnblogs.com 园子的商业化努力-困…

数据库 2023年6月16日
0097
MySQL45讲之InnoDB刷脏策略

本文介绍 InnoDB 的刷脏控制策略，它是如何控制刷脏速率的，以及一些相关参数。了解 MySQL 的刷脏策略有什么意义？当一条正确的 SQL 执行时偶尔延迟较高，无法复现场景…

数据库 2023年5月24日
00121
Hosts映射

Hosts映射思考：如何通过主机名能够找到（ping)某个linux系统？前言 Hosts:是一个文本文件，用来记录IP和Hostname的映射关系 DNS：是互联网上作为域名…

数据库 2023年6月11日
00117
初识MySQL数据库

一、引言假设现在你已经是某大型互联网公司的高级程序员，让你写一个火车票购票系统，来hold住双十一期间全国的购票需求，你怎么写？因为同时抢票的人太多，你的程序不可能写在一台机…

数据库 2023年5月24日
00136
jdbc-实现用户登录业务(解决sql注入问题)

package com.cqust; import java.sql.*;import java.util.HashMap;import java.util.Map;import …

数据库 2023年5月24日
00110
在laravel中使用pipeline管道提升redis读写速度

可能有些小伙伴使用redis读写数据在需要循环使用的场景会发现效率并不是很高于是我分享一个pipeline管道方法我们这里用12万条数据做测试，首先来试试写入操作，看看用常规方…

数据库 2023年6月14日
00135
数据专家最常使用的 10 大类 Pandas 函数 ⛵

💡 作者：韩信子@ShowMeAI📘 数据分析实战系列：http://www.showmeai.tech/tutorials/40📘 本文地址：http://www.showmea…

数据库 2023年6月14日
00120
雷军传-怀揣梦想，砥砺前行

最近几天看完了一本书，是一本个人传记–《雷军传-站在风口上》，我总结为”怀揣梦想，砥砺前行”。其实在我高中时期就已经把雷军视为偶像，只不过当时…

数据库 2023年6月11日
00102
计算机组成原理——计算篇

计算机组成原理 —— 计算篇进制运算的基础定义：常用的进制为什么计算机经常使用 8 进制 &16 进制 1024 不同进制表达方式二进制运算的基础正整数N，基数…

数据库 2023年6月16日
0089
MySQL-过滤数据（WHERE语句）

1、使用WHERE子句在SELECT语句中，数据根据WHERE子句中指定的搜索条件进行过滤。WHERE子句在表名（ FROM子句）之后给出，如下所示：这条语句从products…

数据库 2023年6月16日
00141
iperf3的使用

工具/原料 windows系统，iperf 32位和64位；客户端和服务端的bat文件方法/步骤进入文件夹下面，运行”服务端iperf.bat”文件 …

数据库 2023年6月9日
0089
Python–paramiko

paramiko包含两个核心组件：SSHClient和SFTPClient。 SSHClient的作用类似于Linux的ssh命令，是对SSH会话的封装，该类封装了传输(Trans…

数据库 2023年6月9日
00103
网络通信知识地图

知识地图是一种知识导航系统，并显示不同的知识存储之间重要的动态联系。本篇主要就是从更高的视角将之前的文章的结构思路展现出来。文章结构的思路实际上也是达到架构师程度要掌握的网络通信知…

数据库 2023年6月6日
00121

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

数据分析大作战，SQL V.S. Python，来看看这些考题你都会吗 ⛵

📌 SQL

📌 Pandas

📌 SQL

📌 Pandas

📌 SQL

📌 Pandas

📌 SQL

📌 Pandas

📌 SQL

📌 Pandas

📌 SQL

📌 Pandas

📌 SQL

📌 Pandas

📌 SQL

📌 Pandas

📌 SQL

📌 Pandas

📌 SQL

📌 Pandas

大家都在看