十个精妙绝伦的SQL语句，说尽SQL精华

2023年11月8日上午4:15 • Python • 阅读 39

*
– 引子
– 十大SQL
–
+ 1. 统计班级总分前十名
+ 2. 删除重复记录, 且保留一条
+ 3. 最大连续登陆天数的问题
+ 4. 计算除去部门最高工资，和最低工资的平均工资
+ 5. 计算占比和同比增长
+ 6. 算成绩
+ 7.算昨天每个城市top 10消费金额的用户，输出city_id,city_name,uid, 消费总金额
+ 8. 求连续点击三次的用户数，中间不能有别人的点击，最大连续天数的变形问题
+ 9. AB球队得分流水表，得到连续三次得分的队员名字和每次赶超对手的球员名字
+ 10. 举例说明内连接、外连接、左连接、右连接的区别
– SQL语法图解
– 其它拾遗
–
+ lastIndexOf
– 窗口函数
– 参考

引子

哪些是程序员的通用能力？算法、正则表达式和SQL。这三样，是程序员的基本功，就跟数学公式一样，它不涉及智商，但关乎你的学习态度，牵扯到程序员的面子。面试官考这些时，如果连这个都不会，就会遭到鄙视。有次有个应聘者质疑我，说术业有专攻，你不该考这些问题，说我这是在问茴字的四种写法。

十大SQL

1. 统计班级总分前十名

表结构stu_score：(student_id, course_id, score)

select student_id, sum(score) as s from stu_score group by student_id order by s desc limit 10

这道题比较基本，考察聚合函数用法。下面两个进阶一点：
要求输出课程号和选修人数，查询结果按人数降序排序，若人数相同，按课程号升序排序

select 课程号, count(学号) as 选修人数
from score
group by 课程号
having count(学号)>=2
order by 选修人数 desc, 课程号 asc;

查询没有学全所有课的学生的学号、姓名

select 学号,姓名
from student
where 学号 in
(select 学号
from score
group by 学号
having count(课程号) < (select count(课程号) from course));

2. 删除重复记录, 且保留一条

表结构: (book_id, book_name)
从书籍列表里，删除书名重复的记录，保留book_id最小的记录：

delete from ebook
where book_name in (select book_name from ebook group by book_name having count(*) > 1)
  and book_id not in (select min(book_id) from ebook group by book_name having count(*)>1);

这个考察了子查询和min()函数以及having子句的使用。很多数据库都支持这种子查询。注意，上述SQL在MySQL中执行会报错：

[HY000][1093] You can't specify target table 'ebook' for update in FROM clause

这是因为MySQL不允许你在做子查询时去修改表。trick的办法是创建临时表：

delete from ebook
where book_name in (select t1.book_name from (select book_name
         from ebook group by book_name having count(*) > 1) as t1)
     and book_id not in (select t2.id from (select min(book_id) as id
         from ebook group by book_name having count(*)>1) as t2);

上面创建了两张临时表t1和t2。这样MySQL就可以执行了。

3. 最大连续登陆天数的问题

题目: 找出连续7天登陆，连续30天登陆的用户。
考察点：窗口函数

select *
from
（
  select user_id ,count(1) as num
  from
     (select user_id,date_sub(log_in_date, rank) dts
          from  (select user_id,log_in_date,
                  row_number() over(partitioned by user_id order by log_in_date ) as rank
          from user_log
              )t
      )a
  group by dts
）b
where num = 7

4. 计算除去部门最高工资，和最低工资的平均工资

emp 表：（id 员工 id ，deptno 部门编号，salary 工资）

核心是使用窗口函数降序和升序分别排一遍就取出了最高和最低。

select a.deptno，avg(a.salary)
from
 (
 select *, rank() over( partition by deptno order by salary ) as rank_1
 , rank() over( partition by deptno order by salary desc) as rank_2
 from emp
 )  a
group by a.deptno
where a.rank_1 >1 and a.rank_2 >1

5. 计算占比和同比增长

t_user记录了用户注册时间和平台，统计2018年1月份
每天各平台(“ios”,”android”,”h5″)注册用户总量占所有平台总用户的比例，以及各平台注册用户按周同比增长（与一周前相比）的比例

建表语句

create table t_user
(
uid BIGINT COMMENT "用户id"
, reg_time STRING COMMENT "注册时间,如2018-07-01 08:11:39"
, platform STRING COMMENT "注册平台，包括app ios h5"
);

解答：
知识点：窗口函数。
注意：如果存在某天的缺失数据，偏移函数会有错误

SELECT a.reg_date
,a.platform
,ROUND(a.reg_num/sum(a.reg_num)over(PARTITION BY a.reg_date),4) as rate
,ROUND((a.reg_num-a.reg_num_7)/a.reg_num_7,4) as rate_week
FROM(
SELECT
DATE(reg_time) as reg_date
,platform
,COUNT(uid) as reg_num
,lag(COUNT(uid),7)over(PARTITION BY platform ORDER BY DATE(reg_time)) as reg_num_7
FROM t_user
WHERE SUBSTR(reg_time,1,7)='2018-01'
GROUP BY DATE(reg_time),platform
) a ;

6. 算成绩

表名：subject_scores
输入
Name subject score
王建国数学 95
王建国语文 89
李雪琴数学 100
李雪琴语文 100
李雪琴英语 100

输出
Name math chinese English
王建国 95 89 0
李雪琴 100 100 100

解答：
所涉知识点：GROUP BY 和 CASE WHEN 实现行变列
注意:(1)空的数据这里判断为0；(2)CASE WHEN 前要使用聚合函数，不然报错）

SELECT
name,
MAX(CASE subject WHEN '数学' THEN score ELSE 0 END) as math,
MAX(CASE subject WHEN '语文' THEN score ELSE 0 END) as chinese,
MAX(CASE subject WHEN '英语' THEN score ELSE 0 END) as English
FROM subject_scores
GROUP BY name;

7.算昨天每个城市top 10消费金额的用户，输出city_id,city_name,uid, 消费总金额

表名：orders
每次消费记录一条
city_id,city_name,uid,order_id,amount,pay_order_time, pay_date
解答：(窗口函数)

SELECT a.city_id,
a.city_name,
a.uid,
a.pay_amount as '消费总金额'
FROM
(
SELECT city_id,city_name,uid,SUM(amount) as pay_amount,RANK()over(PARTITION BY city_id ORDER BY SUM(amount) DESC) as rank_no
FROM orders
WHERE pay_date='2020-01-01'
GROUP BY city_id,city_name,uid
) a
WHERE a.rank_no10;

8. 求连续点击三次的用户数，中间不能有别人的点击，最大连续天数的变形问题

总结：相邻问题的本质就是基于研究对象(比如用户、会员、员工等),利用窗口函数对时间字段进行有差别的排序，然后基于研究对象和新增的{排序差值列}，进行分组计数的求连续点击、签到、复购等业务问题的计算;

'''
a表记录了点击的流水信息，包括用户id ，和点击时间
usr_id a a b a a a a
click_time t1 t2 t3 t4 t5 t6 t7

'''

use demo;
WITH t1 AS (
        SELECT MemberID AS user_id, STime AS click_time
        FROM OrderList
        WHERE MemberID IS NOT NULL

            AND DATE_FORMAT(STime, '%Y-%m') = '2017-02'
    ),
    t2 AS (
        SELECT  *
                , row_number() OVER (ORDER BY click_time) AS rank1
                , row_number() OVER (PARTITION BY user_id ORDER BY click_time) AS rank2
        FROM t1
    ),
    t3 AS (
        SELECT *, rank1 - rank2 AS diff
        FROM t2
    ),
    t4 AS (
        SELECT DISTINCT user_id
        FROM t3
        GROUP BY user_id, diff
        HAVING COUNT(1) > 3
    )

SELECT *
FROM t3
WHERE user_id IN (
    SELECT user_id
    FROM t4
)
ORDER BY user_id, diff, click_time;

SELECT DISTINCT user_id
FROM (
    SELECT *, rank_1 - rank_2 AS diff
    FROM (
        SELECT  *
               ,row_number() OVER (ORDER BY click_time) AS rank_1
               ,row_number() OVER (PARTITION BY user_id ORDER BY click_time) AS rank_2
        FROM (
            SELECT MemberID AS user_id, STime AS click_time
            FROM OrderList
            WHERE MemberID IS NOT NULL

                  AND DATE_FORMAT(STime, '%Y-%m') = '2017-02'
        ) a
    ) b
) c
GROUP BY diff, user_id
HAVING COUNT(1) > 3;

9. AB球队得分流水表，得到连续三次得分的队员名字和每次赶超对手的球员名字

表结构:

create table bktab (
   team  string comment '球队名称',
   number int comment '球员号码',
   score_time string comment '得分时间',
   score int comment '得分分数',
   name string comment '球员姓名')
comment 'AB球队得分流水表'
row format delimited fields terminated by '\t'
lines terminated by '\n' stored as orc;

分析思路:
1.按score_time 对全局排序
2.获取当前行 A队累计得分 B队累计得分
3.获取当前 A队累计得分与 B队累计得分的差值
4.当前行差值与上一行差值,发生符合变化时,表示分数发生了反超


select
    team
    ,number
    ,score_time
    ,score
    ,name
    ,ateam_score
    ,bteam_score
from (

    select
        team
        ,number
        ,score_time
        ,score
        ,name
        ,ateam_score
        ,bteam_score
        ,diff_score
        ,lag(diff_score) over (order by score_time asc) as pre_diff_score
        ,case when diff_score > 0 and lag(diff_score) over (order by score_time asc) < 0 then 1
              when diff_score < 0 and lag(diff_score) over (order by score_time asc) > 0 then 1
              when diff_score is not null and lag(diff_score) over (order by score_time asc) is null then 1
              else 0
         end as if_surpass

    from (
        select
        team
        ,number
        ,score_time
        ,score
        ,name
        ,sum(if(team = 'A',score,0)) over (order by score_time asc) as ateam_score
        ,sum(if(team = 'B',score,0)) over (order by score_time asc) as bteam_score
        ,sum(if(team = 'A',score,0)) over (order by score_time asc) - sum(if(team = 'B',score,0)) over (order by score_time asc) as diff_score
        from bktab
    ) t1
) t2
where if_surpass = 1
;

10. 举例说明内连接、外连接、左连接、右连接的区别

下图展示了 LEFT JOIN、RIGHT JOIN、INNER JOIN、OUTER JOIN 相关的 7 种用法：

查询所有课程成绩小于60分学生的学号、姓名

SELECT A.学号,B.姓名 FROM score A LEFT JOIN student B ON A.学号 = B.学号 GROUP BY A.学号 HAVING MAX(成绩) < 60;

SELECT customer.last_name, city.name
FROM customer
INNER JOIN city
  ON customer.id = city.customer_id;

SELECT c.last_name AS lname, t.name AS city
FROM customer AS c
INNER JOIN city AS t
  ON c.id = t.customer_id;

SELECT last_name FROM customer
INTERSECT
SELECT last_name FROM employee;

You can join tables using JOIN, including INNER JOIN, LEFT JOIN, RIGHT JOIN, FULL JOIN, and CROSS JOIN (please see the courses listed at the end of this article for more information). In this example, we want to join data from the tables customer and city. INNER JOIN needs to come after FROM and the name of the first table, customer. After INNER JOIN, place the name of the second table, city. The records with data from both tables are matched by ON with the condition to join. The records in the table city are matched to the records from the table customer if they have the same value in the column id in the table customer and in the column customer_id in the table city.

SQL语法图解

; 其它拾遗

lastIndexOf

Mysql没有直接提供这么一个函数，可以这么实现:

假定t_article有字段url，形如https://zhuanlan.zhihu.com/p/662034389，后面是文章的ID，要获得ID

SELECT substr(url, LENGTH(url) - LOCATE('/', REVERSE(url)) + 2) from t_article;

窗口函数

窗口函数的基本语法如下：

<窗口函数> over (partition by <用于分组的列名>
                order by <用于排序的列名>)

窗口函数包括：
1）专用窗口函数，如rank, dense_rank, row_number等专用窗口函数
2）聚合函数，如sum. avg, count, max, min等

因为窗口函数是对where或者group by子句处理后的结果进行操作，所以窗口函数原则上只能写在select子句中。

参考

https://zhuanlan.zhihu.com/p/92654574

Original: https://blog.csdn.net/jgku/article/details/127957236
Author: 北极象
Title: 十个精妙绝伦的SQL语句，说尽SQL精华

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/813761/

转载文章受原作者版权保护。转载请注明原作者出处！

python

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

基于 MQ 的分布式 Serverless 多租任务处理系统架构演进

本文作者：史明伟，阿里云智能高级技术专家。 1 Serverless 异步任务处理系统诞生和挑战无论是对于云的开发者，还是尝试业务升级的企业客户，Serverless的三个概…

Python 2023年10月15日
0066
Flask 学习-21. 项目配置通过.env环境变量启动开发/生产环境

一般一个项目会配置多套环境：开发/测试/生产环境，每套环境的配置不一样，比如不同的运行环境配置的数据库不一样。 import os class Config(object): # …

Python 2023年8月9日
0072
进阶C语言第二章——-《进阶指针》（指针数组、数组指针、函数指针、回调指针）知识点+基本练习题+深入细节+通俗易懂+完整思维导图+建议收藏

绪论书接上回，通过对数据类型进阶的认识，你肯定对各种数据类型在内存中如何存储有了了解。虽然说，这方面可能对你的编程能力没什么进步。但是，他是一本内功秘籍，当我们遇到了这方面的问题…

Python 2023年11月9日
0043
Matplotlib系列(一)：快速绘图入门

Matplotlib系列目录文章目录一、简介二、思维导图三、 Matplotlib快速绘图 * 1. 两种绘图方式 – 1.1 过程式绘图 1.2 面向对象…

Python 2023年9月3日
0053
Uniapp And Taro一些小测评

前情最近公司准备新开发一个小程序项目，对于使用哪一款小程序框架有一些犹豫，我有过2年左右的uniapp项目开发经验，Taro在刚刚出来的时候有尝试过，经常莫名报错需要重启，在内心…

Python 2023年10月15日
0075
调整Matplotlib子图的大小

前段时间就遇到了这个问题，一直忘了写，今晚夜深人静总结一波~ 问题我相信，看到这篇博客的人，你肯定已经会使用Matplotlib中的pyplot画图。比如下面这种图你也应该会…

Python 2023年8月31日
0051
【Python】深究模块导入：from .. import .. import ..

模块导入：from .. import ..\ import .. * – from .. import .. 用法 – + * 从py模块中导入变量，im…

Python 2023年8月2日
0081
python之 pyCharm pip安装pandas库失败

目录安装报错解决尝试pip3 -—default-time=100 install pandas失败尝试pip -—default-time=100 install pan…

Python 2023年8月2日
00185
关于对字典类型的数据进行柱状图表示

[ 数据_结构C++描述目录译者序前言第一部分预备知识第1章 C++程序设计 1 1.1 引言 1 1.2 函数与参数 2 1.2.1 传值参数 2 1.2.2 模板…

Python 2023年8月8日
0039
数据清洗Chap4——dataframe操作

1.在数据中，选择需要的行或者列2.基础索引方式，就是直接引用3.iloc[行索引名称或者条件，列索引名称或者标签]4.iloc[行索引位置,列索引位置]5.注意，区分loc和il…

Python 2023年8月16日
0056
jmeter 入门到精通

目录一、jmeter 安装二、jmeter 介绍 1、jmeter是什么？ 2、jmeter 用来做什么？ 3、优点 4、缺点 5、jmeter 目录介绍 ①_bin 目录介绍…

Python 2023年9月30日
0052
Telegram Bot 使用文档

创建机器人在telegram中我们可以通过和一个名为 BotFather的机器人交互来申请我们自己的机器人，具体步骤如下将机器人添加到群组里进入机器人信息页面，点击 &amp…

Python 2023年6月3日
0088
最简单体验TinyML、TensorFlow Lite——ESP32跑机器学习（全代码）

目录前言数据采集、处理 * 导入包正弦波数据生成数据集分类模型1训练 * 模型1创建模型1训练检查训练指标模型2训练模型导出（TensorFlow Lite）模…

Python 2023年8月2日
0067
2021年最流行的三大python web框架性能分析

这里写目录标题前言一、Django * （1）优点（2）缺点二、Torando * （1）优点（2）缺点三、Flask * （1）优点（2）缺点前言 Python使…

Python 2023年8月6日
0044
技巧1 python|django接收参数数据类型转换(数组-列表，对象-字典，json)举例用法

1.接收的参数是中文乱码（%E7等） django 中：引入quote, 引入后红线处点击红色小灯，点安装。 from urllib.parse import quote,unq…

Python 2023年8月6日
0059
(Ipython)Matplotlib 中将二叉树可视化

（注意之前代码有错误目前已更新）最近学习黑红二叉树，我想如果把二叉树可视化在操作的时候如果出错会比较容易发现。在网上搜了一圈只有比较简单的ascii 的代码。自己用Ipyth…

Python 2023年9月1日
0039

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31