大厂是怎么进行SQL调优的？

2023年6月9日上午11:55 • Java • 阅读 64

这天我正在午休呢，公司DBA就把我喊醒了，说某库出现大量慢SQL，很快啊，很快，我还没反应过来，库就挂了，我心想现在的用户不讲武德啊，怎么在我睡觉的时候大量请求呢。

这是很常见的一个场景哈，因为很多业务开始数据量级不大，所以写sql的时候就没注意性能，等量级上去，很多业务就需要做调优了，在电商公司工作的这几年我也总结了不少，下面就分享给大家吧。

在代码开发过程中，我们都会遵循一些SQL开发规范去编写高质量SQL，来提高接口的Response Time(RT)，对一些核心接口要求RT在100ms以内甚至更低。

由于业务前期数据量比较小，基本都能满足这个要求，但随着业务量的增长，数据量也随之增加，对应接口的SQL耗时也在变长，直接影响了用户的体验，这时候就需要对SQL进行优化。

优化点主要包括SQL规范性检查，表结构索引检查，SQL优化案例分析，下面从这三方面结合实际案例聊聊如何优化SQL。

SQL规范性检查

每个公司都有自己的MySQL开发规范，基本上大同小异，这里罗列一些比较重要的，我工作期间经常接触的给大家。

UDF用户自定义函数

SQL语句的select后面使用了自定义函数UDF，SQL返回多少行，那么UDF函数就会被调用多少次，这是非常影响性能的。

#getOrderNo&#x662F;&#x7528;&#x6237;&#x81EA;&#x5B9A;&#x4E49;&#x4E00;&#x4E2A;&#x51FD;&#x6570;&#x7528;&#x6237;&#x6765;&#x6839;&#x636E;order_sn&#x6765;&#x83B7;&#x53D6;&#x8BA2;&#x5355;&#x7F16;&#x53F7;
select id, payment_id, order_sn, getOrderNo(order_sn) from payment_transaction where status = 1 and create_time between '2020-10-01 10:00:00' and '2020-10-02 10:00:00';

text类型检查

如果select出现text类型的字段，就会消耗大量的网络和IO带宽，由于返回的内容过大超过max_allowed_packet设置会导致程序报错，需要评估谨慎使用。

#&#x8868;request_log&#x7684;&#x4E2D;content&#x662F;text&#x7C7B;&#x578B;&#x3002;
select user_id, content, status, url, type from request_log where user_id = 32121;

group_concat谨慎使用

gorup_concat是一个字符串聚合函数，会影响SQL的响应时间，如果返回的值过大超过了max_allowed_packet设置会导致程序报错。

select batch_id, group_concat(name) from buffer_batch where status = 0 and create_time between '2020-10-01 10:00:00' and '2020-10-02 10:00:00';

内联子查询

在select后面有子查询的情况称为内联子查询，SQL返回多少行，子查询就需要执行过多少次，严重影响SQL性能。

select id,(select rule_name from member_rule limit 1) as rule_name, member_id, member_type, member_name, status  from member_info m where status = 1 and create_time between '2020-09-02 10:00:00' and '2020-10-01 10:00:00';

表的链接方式

在MySQL中不建议使用Left Join，即使ON过滤条件列索引，一些情况也不会走索引，导致大量的数据行被扫描，SQL性能变得很差，同时要清楚ON和Where的区别。

SELECT a.member_id,a.create_time,b.active_time FROM operation_log a LEFT JOIN member_info b ON a.member_id = b.member_id where  b.status = 1
and a.create_time between '2020-10-01 00:00:00' and '2020-10-30 00:00:00' limit 100, 0;

子查询

由于MySQL的基于成本的优化器CBO对子查询的处理能力比较弱，不建议使用子查询，可以改写成Inner Join。

select b.member_id,b.member_type, a.create_time,a.device_model from member_operation_log a inner join (select member_id,member_type from member_base_info where status = 1
and create_time between '2020-10-01 00:00:00' and '2020-10-30 00:00:00') as b on a.member_id = b.member_id;

索引列被运算

当一个字段被索引，同时出现where条件后面，是不能进行任何运算，会导致索引失效。

#device_no&#x5217;&#x4E0A;&#x6709;&#x7D22;&#x5F15;&#xFF0C;&#x7531;&#x4E8E;&#x4F7F;&#x7528;&#x4E86;ltrim&#x51FD;&#x6570;&#x5BFC;&#x81F4;&#x7D22;&#x5F15;&#x5931;&#x6548;
select id, name , phone, address, device_no from users where ltrim(device_no) = 'Hfs1212121';
#balance&#x5217;&#x6709;&#x7D22;&#x5F15;,&#x7531;&#x4E8E;&#x505A;&#x4E86;&#x8FD0;&#x7B97;&#x5BFC;&#x81F4;&#x7D22;&#x5F15;&#x5931;&#x6548;
select account_no, balance from accounts where balance + 100 = 10000 and status = 1;

类型转换

对于Int类型的字段，传varchar类型的值是可以走索引，MySQL内部自动做了隐式类型转换；相反对于varchar类型字段传入Int值是无法走索引的，应该做到对应的字段类型传对应的值总是对的。

#user_id&#x662F;bigint&#x7C7B;&#x578B;&#xFF0C;&#x4F20;&#x5165;varchar&#x503C;&#x53D1;&#x751F;&#x4E86;&#x9690;&#x5F0F;&#x7C7B;&#x578B;&#x8F6C;&#x6362;&#xFF0C;&#x53EF;&#x4EE5;&#x8D70;&#x7D22;&#x5F15;&#x3002;
select id, name , phone, address, device_no from users where user_id = '23126';
#card_no&#x662F;varchar(20)&#xFF0C;&#x4F20;&#x5165;int&#x503C;&#x662F;&#x65E0;&#x6CD5;&#x8D70;&#x7D22;&#x5F15;
select id, name , phone, address, device_no from users where card_no = 2312612121;

列字符集

从MySQL 5.6开始建议所有对象字符集应该使用用utf8mb4，包括MySQL实例字符集，数据库字符集，表字符集，列字符集。避免在关联查询Join时字段字符集不匹配导致索引失效，同时目前只有utf8mb4支持emoji表情存储。

character_set_server  =  utf8mb4    #&#x6570;&#x636E;&#x5E93;&#x5B9E;&#x4F8B;&#x5B57;&#x7B26;&#x96C6;
character_set_connection = utf8mb4  #&#x8FDE;&#x63A5;&#x5B57;&#x7B26;&#x96C6;
character_set_database = utf8mb4    #&#x6570;&#x636E;&#x5E93;&#x5B57;&#x7B26;&#x96C6;
character_set_results = utf8mb4     #&#x7ED3;&#x679C;&#x96C6;&#x5B57;&#x7B26;&#x96C6;

前缀索引

group by后面的列有索引，索引可以消除排序带来的CPU开销，如果是前缀索引，是不能消除排序的。

#device_no&#x5B57;&#x6BB5;&#x7C7B;&#x578B;varchar(200)&#xFF0C;&#x521B;&#x5EFA;&#x4E86;&#x524D;&#x7F00;&#x7D22;&#x5F15;&#x3002;
mysql> alter table users add index idx_device_no(device_no(64));

mysql> select device_no, count(*) from users where create_time between '2020-10-01 00:00:00' and '2020-10-30 00:00:00' group by device_no;

函数运算

假设需要统计某月每天的新增用户量，参考如下SQL语句，虽然可以走create_time的索引，但是不能消除排序，可以考虑冗余一个字段stats_date date类型来解决这种问题。

select DATE_FORMAT(create_time, '%Y-%m-%d'), count(*) from users where create_time between '2020-09-01 00:00:00' and '2020-09-30 23:59:59' group by DATE_FORMAT(create_time, '%Y-%m-%d');

前缀索引

order by后面的列有索引，索引可以消除排序带来的CPU开销，如果是前缀索引，是不能消除排序的。

字段顺序

排序字段顺序，asc/desc升降要跟索引保持一致，充分利用索引的有序性来消除排序带来的CPU开销。

limit m,n要慎重

对于limit m, n分页查询，越往后面翻页即m越大的情况下SQL的耗时会越来越长，对于这种应该先取出主键id，然后通过主键id跟原表进行Join关联查询。

表结构检查

在数据库设计建模阶段，对表名及字段名设置要合理，不能使用MySQL的关键字，如desc, order, status, group等。同时建议设置lower_case_table_names = 1表名不区分大小写。

对于OLTP业务系统，建议使用InnoDB引擎获取更好的性能，可以通过参数default_storage_engine控制。

建表的时候主键id带有AUTO_INCREMENT属性，而且AUTO_INCREMENT=1，在InnoDB内部是通过一个系统全局变量dict_sys.row_id来计数，row_id是一个8字节的bigint unsigned，InnoDB在设计时只给row_id保留了6个字节的长度，这样row_id取值范围就是0到2^48 – 1，如果id的值达到了最大值，下一个值就从0开始继续循环递增，在代码中禁止指定主键id值插入。

#&#x65B0;&#x63D2;&#x5165;&#x7684;id&#x503C;&#x4F1A;&#x4ECE;10001&#x5F00;&#x59CB;&#xFF0C;&#x8FD9;&#x662F;&#x4E0D;&#x5BF9;&#x7684;&#xFF0C;&#x5E94;&#x8BE5;&#x4ECE;1&#x5F00;&#x59CB;&#x3002;
create table booking( id bigint(20) NOT NULL AUTO_INCREMENT COMMENT '&#x4E3B;&#x952E;id',......) engine = InnoDB auto_increment = 10000;
<h1 id="&#x6307;&#x5B9A;&#x4E86;id&#x503C;&#x63D2;&#x5165;&#x540E;&#x7EED;&#x81EA;&#x589E;&#x5C31;&#x4F1A;&#x4ECE;&#x8BE5;&#x503C;&#x5F00;&#x59CB;1&#x7D22;&#x5F15;&#x7981;&#x6B62;&#x6307;&#x5B9A;id&#x503C;&#x63D2;&#x5165;">&#x6307;&#x5B9A;&#x4E86;id&#x503C;&#x63D2;&#x5165;&#xFF0C;&#x540E;&#x7EED;&#x81EA;&#x589E;&#x5C31;&#x4F1A;&#x4ECE;&#x8BE5;&#x503C;&#x5F00;&#x59CB;+1&#xFF0C;&#x7D22;&#x5F15;&#x7981;&#x6B62;&#x6307;&#x5B9A;id&#x503C;&#x63D2;&#x5165;&#x3002;</h1>

insert into booking(id, book_sn) values(1234551121, 'N12121');

根据业务含义，尽量将字段都添加上NOT NULL DEFAULT VALUE属性，如果列值存储了大量的NULL，会影响索引的稳定性。

在创建表的时候，建议每个字段尽量都有默认值，禁止DEFAULT NULL，而是对字段类型填充响应的默认值。

字段的备注要能明确该字段的作用，尤其是某些表示状态的字段，要显式的写出该字段所有可能的状态数值以及该数值的含义。

不建议使用Text数据类型，一方面由于传输大量的数据包可能会超过max_allowed_packet设置导致程序报错，另一方面表上的DML操作都会变的很慢，建议采用es或者对象存储OSS来存储和检索。

索引检查

索引基数指的是被索引的列唯一值的个数，唯一值越多接近表的count(*)说明索引的选择率越高，通过索引扫描的行数就越少，性能就越高，例如主键id的选择率是100%，在MySQL中尽量所有的update都使用主键id去更新，因为id是聚集索引存储着整行数据，不需要回表，性能是最高的。

mysql> select count(*) from member_info;
+----------+
| count(*) |
+----------+
|   148416 |
+----------+
1 row in set (0.35 sec)
<p>mysql> show index from member_base_info;
+------------------+------------+----------------------------+--------------+-------------------+-----------+-------------+----------+--------+------+------------+---------+---------------+
| Table            | Non_unique | Key_name                   | Seq_in_index | Column_name       | Collation | Cardinality | Sub_part | Packed | Null | Index_type | Comment | Index_comment |
+------------------+------------+----------------------------+--------------+-------------------+-----------+-------------+----------+--------+------+------------+---------+---------------+
| member_info |          0 | PRIMARY                    |            1 | id                | A         |      131088 | NULL     | NULL   |      | BTREE      |         |               |
| member_info |          0 | uk_member_id               |            1 | member_id         | A         |      131824 | NULL     | NULL   |      | BTREE      |         |               |
| member_info |          1 | idx_create_time            |            1 | create_time       | A         |        6770 | NULL     | NULL   |      | BTREE      |         |               |
+------------------+------------+----------------------------+--------------+-------------------+-----------+-------------+----------+--------+------+------------+---------+---------------+</p>
<h1 id="table-&#x8868;&#x540D;">Table&#xFF1A; &#x8868;&#x540D;</h1>
<h1 id="non_unique-&#x662F;&#x5426;&#x4E3A;unique-index0-&#x662F;1-&#x5426;">Non_unique &#xFF1A;&#x662F;&#x5426;&#x4E3A;unique index&#xFF0C;0-&#x662F;&#xFF0C;1-&#x5426;&#x3002;</h1>
<h1 id="key_name&#x7D22;&#x5F15;&#x540D;&#x79F0;">Key_name&#xFF1A;&#x7D22;&#x5F15;&#x540D;&#x79F0;</h1>
<h1 id="seq_in_index&#x7D22;&#x5F15;&#x4E2D;&#x7684;&#x987A;&#x5E8F;&#x53F7;&#x5355;&#x5217;&#x7D22;&#x5F15;-&#x90FD;&#x662F;1&#x590D;&#x5408;&#x7D22;&#x5F15;-&#x6839;&#x636E;&#x7D22;&#x5F15;&#x5217;&#x7684;&#x987A;&#x5E8F;&#x4ECE;1&#x5F00;&#x59CB;&#x9012;&#x589E;">Seq_in_index&#xFF1A;&#x7D22;&#x5F15;&#x4E2D;&#x7684;&#x987A;&#x5E8F;&#x53F7;&#xFF0C;&#x5355;&#x5217;&#x7D22;&#x5F15;-&#x90FD;&#x662F;1&#xFF1B;&#x590D;&#x5408;&#x7D22;&#x5F15;-&#x6839;&#x636E;&#x7D22;&#x5F15;&#x5217;&#x7684;&#x987A;&#x5E8F;&#x4ECE;1&#x5F00;&#x59CB;&#x9012;&#x589E;&#x3002;</h1>
<h1 id="column_name&#x7D22;&#x5F15;&#x7684;&#x5217;&#x540D;">Column_name&#xFF1A;&#x7D22;&#x5F15;&#x7684;&#x5217;&#x540D;</h1>
<h1 id="collation&#x6392;&#x5E8F;&#x987A;&#x5E8F;&#x5982;&#x679C;&#x6CA1;&#x6709;&#x6307;&#x5B9A;ascdesc&#x9ED8;&#x8BA4;&#x90FD;&#x662F;&#x5347;&#x5E8F;asc">Collation&#xFF1A;&#x6392;&#x5E8F;&#x987A;&#x5E8F;&#xFF0C;&#x5982;&#x679C;&#x6CA1;&#x6709;&#x6307;&#x5B9A;asc/desc&#xFF0C;&#x9ED8;&#x8BA4;&#x90FD;&#x662F;&#x5347;&#x5E8F;ASC&#x3002;</h1>
<h1 id="cardinality&#x7D22;&#x5F15;&#x57FA;&#x6570;-&#x7D22;&#x5F15;&#x5217;&#x552F;&#x4E00;&#x503C;&#x7684;&#x4E2A;&#x6570;">Cardinality&#xFF1A;&#x7D22;&#x5F15;&#x57FA;&#x6570;-&#x7D22;&#x5F15;&#x5217;&#x552F;&#x4E00;&#x503C;&#x7684;&#x4E2A;&#x6570;&#x3002;</h1>
<h1 id="sub_part&#x524D;&#x7F00;&#x7D22;&#x5F15;&#x7684;&#x957F;&#x5EA6;&#x4F8B;&#x5982;index-member_name10&#x957F;&#x5EA6;&#x5C31;&#x662F;10">sub_part&#xFF1A;&#x524D;&#x7F00;&#x7D22;&#x5F15;&#x7684;&#x957F;&#x5EA6;&#xFF1B;&#x4F8B;&#x5982;index (member_name(10)&#xFF0C;&#x957F;&#x5EA6;&#x5C31;&#x662F;10&#x3002;</h1>
<h1 id="packed&#x7D22;&#x5F15;&#x7684;&#x7EC4;&#x7EC7;&#x65B9;&#x5F0F;&#x9ED8;&#x8BA4;&#x662F;null">Packed&#xFF1A;&#x7D22;&#x5F15;&#x7684;&#x7EC4;&#x7EC7;&#x65B9;&#x5F0F;&#xFF0C;&#x9ED8;&#x8BA4;&#x662F;NULL&#x3002;</h1>
<h1 id="nullyes&#x7D22;&#x5F15;&#x5217;&#x5305;&#x542B;null&#x503C;&#x7D22;&#x5F15;&#x4E0D;&#x5305;&#x542B;null&#x503C;">Null&#xFF1A;YES:&#x7D22;&#x5F15;&#x5217;&#x5305;&#x542B;Null&#x503C;&#xFF1B;'':&#x7D22;&#x5F15;&#x4E0D;&#x5305;&#x542B;Null&#x503C;&#x3002;</h1>
<h1 id="index_type&#x9ED8;&#x8BA4;&#x662F;btree&#x5176;&#x4ED6;&#x7684;&#x503C;fulltexthashrtree">Index_type&#xFF1A;&#x9ED8;&#x8BA4;&#x662F;BTREE&#xFF0C;&#x5176;&#x4ED6;&#x7684;&#x503C;FULLTEXT&#xFF0C;HASH&#xFF0C;RTREE&#x3002;</h1>

对于变长字符串类型varchar(m)，为了减少key_len，可以考虑创建前缀索引，但是前缀索引不能消除group by， order by带来排序开销。如果字段的实际最大值比m小很多，建议缩小字段长度。

alter table member_info add index idx_member_name_part(member_name(10));

有很多人喜欢在创建复合索引的时候，总以为前导列一定是唯一值多的列，例如索引index idx_create_time_status(create_time, status)，这个索引往往是无法命中，因为扫描的IO次数太多，总体的cost的比全表扫描还大，CBO最终的选择是走full table scan。

MySQL遵循的是索引最左匹配原则，对于复合索引，从左到右依次扫描索引列，到遇到第一个范围查询（>=, >,

Original: https://www.cnblogs.com/aobing/p/13983556.html
Author: 敖丙
Title: 大厂是怎么进行SQL调优的？

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/592403/

转载文章受原作者版权保护。转载请注明原作者出处！

Java

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

SpringCloudAlibaba项目之SkyWalking链路追踪

SpringCloudAlibaba随笔目录一、SpringCloudAlibaba项目之父工程搭建二、 SpringCloudAlibaba项目之Nacos搭建及服务注册三…

Java 2023年6月5日
0091
源码级别的广播与监听实现

原创：微信公众号【阿Q说代码】，欢迎分享，转载请保留出处。近期疫情形势严峻，情形不容乐观，周末也不敢出去浪了，躲在家里”葛优躺”。闲来无事，又翻了遍 S…

Java 2023年6月5日
0074
MySQL、Oracle元数据抽取分析

最近接到个任务是抽取mysql和Oracle的元数据，大致就是在库里把库、schema、表、字段、分区、索引、主键等信息抽取出来，然后导成excel。因为刚开始接触元数据，对这个…

Java 2023年6月5日
0085
1-快速体验 Spring Security 5.7.2 | 权限管理基础

在前面SpringBoot 2.7.2 的系列文章中，已经创建了几个 computer 相关的接口，这些接口直接通过 Spring Doc 或 POSTMAN 就可以访问。例如： …

Java 2023年6月16日
00104
回溯算法-解数独

回溯算法什么是回溯法？回溯法（探索与回溯法）是一种选优搜索法，又称为试探法，按选优条件向前搜索，以达到目标。但当探索到某一步时，发现原先选择并不优或达不到目标，就退回一步重新选…

Java 2023年6月5日
00110
javax.net.ssl.SSLException: Certificate doesn’t match any of the subject alternative names

问题：在使用 org.apache.http.*下的 CloseableHttpClient 发送https请求时报了以上错误解决方案一：使用java.net.HttpURLCo…

Java 2023年5月29日
00115
通过docker容器反向生成docker-compose.yml文件

从 GitHub 拉取镜像（同时支持 x86 和 ARM） docker pull ghcr.io/red5d/docker-autocompose:latest 使用新映像从正在…

Java 2023年6月8日
00126
栈

栈栈的介绍栈是限制插入和删除只能在一个位置上进行的线性表。其中，允许插入和删除的一端位于表的末端，叫做栈顶(top)，不允许插入和删除的一端叫做栈底(bottom)。对栈的基本…

Java 2023年6月14日
0081
Java学习-第一部分-第二阶段-第四节：常用类

常用类笔记目录：(https://www.cnblogs.com/wenjie2000/p/16378441.html) 包装类包装类的分类针对八种基本数据类型相应的引用类型…

Java 2023年6月16日
00102
mybatis-plus自定义代码模板

http://www.manongjc.com/article/47597.html Original: https://www.cnblogs.com/tszr/p/165167…

Java 2023年5月30日
00104
Nginx 的基本概念

Nginx 简介什么是 Nginx Nginx 是一个高性能的 HTTP 和反向代理 web服务器占用内存少，并发能力强，高性能，热部署但不支持 Java，Java 得配合…

Java 2023年6月13日
0065
i++和++i

++ 是自增运算符不给变量赋值最后 i 的值都是一样的给变量赋值 i++先赋值后自增 ++i 先自增后赋值不能理解请一条++操作配合一条输出语句其他6条注释掉执…

Java 2023年6月8日
0081
SpringBoot 设置HTTP 响应状态码 (HTTP Status Code)

SpringBoot 设置HTTP 响应状态码 (HTTP Status Code) HTTP请求响应的内容有很多，包括Body、Cookies、Headers和Status。我们…

Java 2023年5月30日
00175
木马免杀

最近学了点木马免杀，其实总结起来一共有三个层面，代码面，文件面，逻辑面。代码层面可以通过shellcode编码混淆，编辑执行器，分离加载器等方法进行免杀文件面可以通过特征码定位…

Java 2023年6月6日
0062
线程安全问题

线程安全问题本篇主要讲解线程安全问题，演示什么情况下会出现线程安全问题,以及介绍了 Java内存模型、volatile关键字、CAS 等，最后感谢吴恒同学的投稿！一起来…

Java 2023年6月9日
0083
Java多线程（一）

Java多线程（一） Java多线程（一） – 一、基本概念：程序、进程、线程二、多线程的创建与使用 2.1 多线程的创建方式一：继承于Thread类 2.2 Thr…

Java 2023年6月9日
00111

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

大厂是怎么进行SQL调优的？

SQL规范性检查

表结构检查

索引检查

大家都在看