数据分析大作战，SQL V.S. Python，来看看这些考题你都会吗 ⛵

2023年6月11日下午3:06 • 人工智能 • 阅读 87

💡 作者：韩信子@ShowMeAI
📘 数据分析实战系列：https://www.showmeai.tech/tutorials/40
📘 本文地址：https://www.showmeai.tech/article-detail/314
📢 声明：版权所有，转载请联系平台与作者并注明出处
📢 收藏ShowMeAI查看更多精彩内容

对于数据分析师、数据科学家等数据从业人员来说，我们有很多的工具可以帮助我们探索与分析数据，发现数据之下的分布与模式规律，最常见和实用的技能是使用 SQL 和 Python 进行数据分析。SQL 和 Python 进行数据分析各有优势:

SQL 支持很多数据库（如 MS SQL、MySQL、SQLite、PostgreSQL等），可以很方便跨数据库使用，而且无需编程语言基础，可以快速上手。
Python 数据分析（这里指的使用 Pandas 工具库）比较灵活，可以进行数据清理、清洗、格式变化、复杂计算等，还支持很好的可视化，并能无缝衔接后续进一步深入挖掘与建模等流程。

但在大部分需求与功能上，SQL 和 Pandas 都是可以完成的，在本篇内容中，ShowMeAI就帮大家把所有的核心数据分析功能梳理处理，并用 SQL 和 Pandas 进行实现，我们可以轻松对比学习。

对于 Python 数据分析和 SQL 更详尽的内容，欢迎大家查阅ShowMeAI制作的系列教程和速查表：

💡 场景&数据集

我们这里使用到的是 🏆 mtcars数据集，它是一份1974年摩托风尚杂志的数据（1974 Motor Trend Magazine），你可以在这里下载到csv文本格式的文件，能够导入数据库的db格式文件可以在这里下载。

🏆 实战数据集下载（百度网盘）：公众号『ShowMeAI研究中心』回复『实战』，或者点击这里获取本文 [21]SQL与Pandas数据分析实操大全『 mtcars数据集』

⭐ ShowMeAI官方GitHub：https://github.com/ShowMeAI-Hub

我们先用python对数据进行读取，读取为pandas dataframe格式。

import numpy as np
import pandas as pd

mtcars_df = pd.read_csv("mtcars.csv")

下面我们梳理一下数据分析中会使用到的核心技能，并对比SQL和Pandas分别是如何实现这些功能的。

💡 数据选择

有时我们需要返回数据集的列(字段)子集。例如，我们要从 mtcars数据集中选择 Miles/(US) 加仑 ( mpg), 气缸数( cyl) 和总马力 ( hp）这几个字段对应的数据。

📌 SQL

我们使用标准的 SELECT语句就可以完成数据选择。

SELECT
      mpg,
      disp,
      cyl
FROM mtcars

.
.
.

📌 Pandas

我们直接把字段子集的列表给到 dataframe 即可取出对应的数据子集。

mtcars_df[['mpg', 'disp', 'cyl']]

.
.
.

💡 限制

有时候我们希望提前查看一下数据集，但是在总体数据集很大的情况下，我们不能查看所有数据，我们会做一个限制，比如查看数据的前 5 行对表的结构和数据类型进行一个速览。

📌 SQL

SQL有 LIMIT n语法可以限制与返回数据前 n行。

SELECT *
FROM mtcars
  LIMIT 5;

📌 Pandas

Pandas通过 df.head(n = 5)的参数传入来返回头部 5行

mtcars_df.head(n = 5)

💡 统计计数

如果我们要对数据进行统计计数，SQL 和 Pandas 的实现方式也不太一样。

📌 SQL

SQL通过 count(*)语法返回数据集的计数（例如下面是总行数）。

SELECT COUNT(*)
FROM
  mtcars LIMIT 5;

📌 Pandas

Pandas dataframe 有一个属性 shape，它返回数据集中的行数和列数。

nrows, ncols = mtcars_df.shape
print("Number of Rows: ", nrows)

💡 排序

在 SQL 和 Pandas 中，我们可以根据一列或多列的值对数据进行升序或降序排列。

📌 SQL

SQL通过 ORDER BY来对数据进行排序，默认升序。

SELECT *
FROM mtcars
  ORDER BY mpg
  LIMIT 5;

我们也可以指定降序排列（ DESC)。

SELECT *
FROM mtcars
  ORDER BY mpg DESC
  LIMIT 5;

我们也可以同时指定按照某些列升序，某些列降序进行排序，例如下面我们按照 mpg升序和 model降序对数据排列。

SELECT *
FROM mtcars
  ORDER BY mpg ASC, model DESC
  LIMIT 5;

📌 Pandas

Pandas中的 sort_values函数可以完成排序。

mtcars_df.sort_values(by = 'mpg').head(n = 5)

我们可以在 sort_values函数中指定排序字段和方式。

mtcars_df.sort_values(by = 'mpg', ascending=False).head(n = 5)

当我们要对多个字段排序并指定不同的规则时，只要在 sort_values中传入对应的字段和排序规则列表即可。

mtcars_df.sort_values(by = ['mpg', 'model'], ascending=[True, False]).head(n = 5)

💡 新字段生成

假如我们要基于目前已有字段 mpg和 wt创建两个新列 kg-per-gallon kpl和 wt_kg，计算后保留小数点后两位，那 SQL 和 Pandas 的计算方式分别如下：

📌 SQL

我们通过 SELECT可以直接构建新的字段与重命名，SQL 中也支持用 ROUND函数对数值精度进行控制。

SELECT ROUND(mpg*1.60934, 2) AS kpg,
       ROUND(wt*1000*0.453592, 2) AS wt_kg
FROM mtcars LIMIT 5;

📌 Pandas

Pandas 创建新字段也非常简单，对于数值进行精度控制需要借助 numpy 和 round 函数。

mtcars_df['kpg'] = np.round(mtcars_df['mpg']*1.60934, 2)
mtcars_df['wt_kg'] = np.round(mtcars_df['wt']*1000*0.453592, 2)
mtcars_df[['kpg', 'wt_kg']].head(n = 5)

💡 数据选择

我们经常需要对数据进行条件选择，SQL 中会通过 WHERE语句来进行条件选择，而在 Pandas 中我们可以直接在 dataframe 后添加单一或组合条件来进行数据选择。具体示例如下：

📌 SQL

从 mtcars 数据集中选择档位为4（ gear为4）的汽车如下

SELECT *
FROM mtcars
  WHERE gear = 4;

如果我们需要使用组合条件，比如选择 gear为4以及气缸数 cyl小于或等于 6的数据，那在where 语句中我们可以用 AND等进行条件组合：

SELECT *
FROM mtcars
  WHERE gear = 4 AND cyl  6;

如果上面两个条件不是且关系，而是满足任何一个都可以，那我们把条件组合方式换成 OR

SELECT *
FROM mtcars
  WHERE gear = 4 OR cyl  6;

📌 Pandas

从 mtcars中返回 gear == 4的数据

mtcars_df[mtcars_df.gear == 4]

如果要求 gear == 4 以及 cyl <= 6< code>，那 Pandas 写法如下：

mtcars_df[(mtcars_df.gear == 4) & (mtcars_df.cyl  6)]

如果要求 gear == 4 或 cyl <= 6< code>，那 Pandas 写法如下：

mtcars_df[(mtcars_df.gear == 4) | (mtcars_df.cyl  6)]

💡 数据分组

我们对数据进行分析，分组和按组统计是最重要的核心功能，我们来看看 SQL 和 Pandas 都分别如何对数据分组：

📌 SQL

在 SQL 中可以借助于 GROUP BY语句对数据进行分组，例如下面是我们基于 gear 字段进行数据分组。

SELECT
    gear,
    COUNT(*)
    FROM mtcars
        GROUP BY gear;

Pandas 中可以直接对 dataframe 使用 groupby 函数进行数据分组，如下：

📌 Pandas

mtcars_df.groupby("gear").count()['model']

💡 统计均值

非常常见的统计任务之一是对数据进行均值统计，对应的 SQL 和 Pandas 操作如下：

📌 SQL

SELECT
    AVG(wt),
    AVG(hp),
    AVG(mpg)
FROM mtcars;

📌 Pandas

mtcars_df[['wt', 'hp', 'mpg']].mean()

💡 方差

对于方差而言，SQL 和 Pandas 的计算方式如下：

📌 SQL

SELECT AVG(wt*wt) - AVG(wt)*AVG(wt) AS WT,
        AVG(hp*hp) - AVG(hp)*AVG(hp) AS HP,
        AVG(mpg*mpg) - AVG(mpg)*AVG(mpg) AS MPG
FROM mtcars;

📌 Pandas

mtcars_df[['wt', 'hp', 'mpg']].var(ddof=0)

💡 极差/范围

另外一个常用统计量是极差（最大值 – 最小值），SQL 和 Pandas 的做法如下：

📌 SQL

SELECT min(gear) AS MIN,
           max(gear) AS MAX,
           sum(gear) AS TOTAL,
           max(gear)-min(gear) AS RANGE
FROM mtcars;

📌 Pandas


mtcars_df['gear'].min()

mtcars_df['gear'].max()

mtcars_df['gear'].sum()

mtcars_df['gear'].max() - mtcars_df['gear'].min()

💡 总结

在本篇中，ShowMeAI将使用 SQL 和 Python（Pandas 工具库）进行数据分析做了梳理和对比，两个都是非常常见的工具和方式，大家可以对比学习掌握后灵活使用。

参考资料

📘 图解数据分析：从入门到精通系列教程：https://www.showmeai.tech/tutorials/33
📘 数据科学工具库速查表 | Pandas 速查表：https://www.showmeai.tech/article-detail/101
📘 编程语言速查表 | SQL 速查表：https://www.showmeai.tech/article-detail/99

Original: https://blog.csdn.net/ShowMeAI/article/details/126492921
Author: ShowMeAI
Title: 数据分析大作战，SQL V.S. Python，来看看这些考题你都会吗 ⛵

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/600383/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

HuggingFace学习1：tokenizer学习与将文本编码为固定长度（pytorch）

首先需要安装transformers： pip install transformers config.json pytorch_model.bin vocab.txt 这三个文件…

人工智能 2023年5月27日
0081
sklearn的系统学习——随机森林分类器与随机森林回归器（含有python完整代码及案例）

目录集成算法 sklearn中的随机森林随机森林分类器随机性参数属性案例代码随机森林回归器案例代码在前面的内容中，已经对决策树解决分类回归问题分别做了阐述，今天走进…

人工智能 2023年6月16日
0078
开源虚拟形象驱动测试(npm,Tensorflow.js)

1.安装nodejs 下面链接里下载exe安装下node Download | Node.js Node.js® is a JavaScript runtime built on …

人工智能 2023年5月24日
00120
渗透测试CTF-图片隐写的详细教程（干货）

大家可以关注一下我的公众号-小白渗透测试 Binwalk Binwalk是一款快速、易用，用于分析，逆向工程和提取固件映像的工具。最直接的我们可以用来检测图片中是否有隐藏的文件。…

人工智能 2023年6月26日
00228
YoloX引入注意力机制，CIoU、DIoU，DW卷积

本文以Bubbliiing的YoloX代码进行注意力机制的增加，原博文参考以下。 https://blog.csdn.net/weixin_44791964/article/det…

人工智能 2023年7月27日
0048
yolov5s-5.0网络模型结构图

看了很多yolov5方面的东西，最近需要yolov5得模型结构图，但是网上的最多的是大白老师的，但是大白老师的yolov5得模型结构图不知道是哪个版本得，肯定不是5.0和6.0版本…

人工智能 2023年7月25日
0066
YOLOX自定义数据集训练（抢先踩坑）

序言昨天被YOLOX刷屏了，各大公众号强推：性能超yolov5！！吊打一切yolo！！看麻了我，标题还能再夸张点嘛？出于对前沿技术的渴望，还是要去学习学习，论文中改进了很多地…

人工智能 2023年7月5日
0086
Yolov5更换backbone，与模型压缩（剪枝，量化，蒸馏）

~~~欢迎各位交流、star、fork、issues~~~ 项目介绍：本仓库是基于官方yolov5源码的基础上，进行的改进。目前支持更换yolov5的backbone主干网络为…

人工智能 2023年6月16日
00106
pandas中dataframe行遍历

现有一个数据框pandas的dataframe: 期望输出现在我想遍历这个数据框的每一行，在每一行当中我想通过列名访问第一行的每一个元素，例如，实现以下效果：方法一：iter…

人工智能 2023年6月2日
0084
研究一下带旋转的目标检测工作

数据标注工具rolable 。需要先安装labelimg如何，安装旋转标注工具roLabelImg使用教程-python黑洞网该网址内容安装成功后执行去github clone…

人工智能 2023年7月10日
0061
斯坦福NLP名课带学详解 | CS224n 第15讲 – NLP文本生成任务（NLP通关指南·完结）

作者：韩信子@ShowMeAI，路遥@ShowMeAI，奇异果@ShowMeAI 教程地址：https://www.showmeai.tech/tutorials/36 本文地址：…

人工智能 2023年5月30日
0076
GEE-Scholars 机器学习之卫星图像监督分类

我是目录前言 GEE监督分类流程 * 1.导入相关库 2.添加数据 3.制作训练集 4.分类器训练 5.图像分类 6.导出结果总结大家好，我是沐风，致力于打造丝滑的知识搬运，…

人工智能 2023年7月2日
0089
使用Pytorch快速搭建神经网络模型（附详细注释和讲解）

文章目录 0 前言 1 数据读入 2 模型搭建 3 模型训练 4 模型测试 5 模型保存 6 参考博客 0 前言代码参考了知乎上”10分钟快速入门PyTorch&#8…

人工智能 2023年7月21日
0061
SpringBoot中常用的时间日期转换工具类

常用的时间日期转换方式日期格式化yyyy-MM-dd String->Date public static Date formatDate(String date, Str…

人工智能 2023年6月11日
0089
回归模型的评估及超参数调优

一、回归模型在机器学习中，其中算法最为重要一面就是回归算法，回归算法占我们理解机器学习一大块，这一块的学习可以帮助我们掌握超参数的调节。基本上只要一切基于特征预测连续型变量的需求…

人工智能 2023年6月17日
0071
ROS机器视觉自学笔记（1）

提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录前言一、ros中安装Opencv 二、使用HSV通道实现目标检测 * 1.HSV颜色通道简介 2. 安…

人工智能 2023年7月19日
0058

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

数据分析大作战，SQL V.S. Python，来看看这些考题你都会吗 ⛵

📌 SQL

📌 Pandas

📌 SQL

📌 Pandas

📌 SQL

📌 Pandas

📌 SQL

📌 Pandas

📌 SQL

📌 Pandas

📌 SQL

📌 Pandas

📌 SQL

📌 Pandas

📌 SQL

📌 Pandas

📌 SQL

📌 Pandas

📌 SQL

📌 Pandas

大家都在看