大厂是怎么进行SQL调优的？

2023年6月9日上午11:55 • Java • 阅读 65

这天我正在午休呢，公司DBA就把我喊醒了，说某库出现大量慢SQL，很快啊，很快，我还没反应过来，库就挂了，我心想现在的用户不讲武德啊，怎么在我睡觉的时候大量请求呢。

这是很常见的一个场景哈，因为很多业务开始数据量级不大，所以写sql的时候就没注意性能，等量级上去，很多业务就需要做调优了，在电商公司工作的这几年我也总结了不少，下面就分享给大家吧。

在代码开发过程中，我们都会遵循一些SQL开发规范去编写高质量SQL，来提高接口的Response Time(RT)，对一些核心接口要求RT在100ms以内甚至更低。

由于业务前期数据量比较小，基本都能满足这个要求，但随着业务量的增长，数据量也随之增加，对应接口的SQL耗时也在变长，直接影响了用户的体验，这时候就需要对SQL进行优化。

优化点主要包括SQL规范性检查，表结构索引检查，SQL优化案例分析，下面从这三方面结合实际案例聊聊如何优化SQL。

SQL规范性检查

每个公司都有自己的MySQL开发规范，基本上大同小异，这里罗列一些比较重要的，我工作期间经常接触的给大家。

UDF用户自定义函数

SQL语句的select后面使用了自定义函数UDF，SQL返回多少行，那么UDF函数就会被调用多少次，这是非常影响性能的。

#getOrderNo&#x662F;&#x7528;&#x6237;&#x81EA;&#x5B9A;&#x4E49;&#x4E00;&#x4E2A;&#x51FD;&#x6570;&#x7528;&#x6237;&#x6765;&#x6839;&#x636E;order_sn&#x6765;&#x83B7;&#x53D6;&#x8BA2;&#x5355;&#x7F16;&#x53F7;
select id, payment_id, order_sn, getOrderNo(order_sn) from payment_transaction where status = 1 and create_time between '2020-10-01 10:00:00' and '2020-10-02 10:00:00';

text类型检查

如果select出现text类型的字段，就会消耗大量的网络和IO带宽，由于返回的内容过大超过max_allowed_packet设置会导致程序报错，需要评估谨慎使用。

#&#x8868;request_log&#x7684;&#x4E2D;content&#x662F;text&#x7C7B;&#x578B;&#x3002;
select user_id, content, status, url, type from request_log where user_id = 32121;

group_concat谨慎使用

gorup_concat是一个字符串聚合函数，会影响SQL的响应时间，如果返回的值过大超过了max_allowed_packet设置会导致程序报错。

select batch_id, group_concat(name) from buffer_batch where status = 0 and create_time between '2020-10-01 10:00:00' and '2020-10-02 10:00:00';

内联子查询

在select后面有子查询的情况称为内联子查询，SQL返回多少行，子查询就需要执行过多少次，严重影响SQL性能。

select id,(select rule_name from member_rule limit 1) as rule_name, member_id, member_type, member_name, status  from member_info m where status = 1 and create_time between '2020-09-02 10:00:00' and '2020-10-01 10:00:00';

表的链接方式

在MySQL中不建议使用Left Join，即使ON过滤条件列索引，一些情况也不会走索引，导致大量的数据行被扫描，SQL性能变得很差，同时要清楚ON和Where的区别。

SELECT a.member_id,a.create_time,b.active_time FROM operation_log a LEFT JOIN member_info b ON a.member_id = b.member_id where  b.status = 1
and a.create_time between '2020-10-01 00:00:00' and '2020-10-30 00:00:00' limit 100, 0;

子查询

由于MySQL的基于成本的优化器CBO对子查询的处理能力比较弱，不建议使用子查询，可以改写成Inner Join。

select b.member_id,b.member_type, a.create_time,a.device_model from member_operation_log a inner join (select member_id,member_type from member_base_info where status = 1
and create_time between '2020-10-01 00:00:00' and '2020-10-30 00:00:00') as b on a.member_id = b.member_id;

索引列被运算

当一个字段被索引，同时出现where条件后面，是不能进行任何运算，会导致索引失效。

#device_no&#x5217;&#x4E0A;&#x6709;&#x7D22;&#x5F15;&#xFF0C;&#x7531;&#x4E8E;&#x4F7F;&#x7528;&#x4E86;ltrim&#x51FD;&#x6570;&#x5BFC;&#x81F4;&#x7D22;&#x5F15;&#x5931;&#x6548;
select id, name , phone, address, device_no from users where ltrim(device_no) = 'Hfs1212121';
#balance&#x5217;&#x6709;&#x7D22;&#x5F15;,&#x7531;&#x4E8E;&#x505A;&#x4E86;&#x8FD0;&#x7B97;&#x5BFC;&#x81F4;&#x7D22;&#x5F15;&#x5931;&#x6548;
select account_no, balance from accounts where balance + 100 = 10000 and status = 1;

类型转换

对于Int类型的字段，传varchar类型的值是可以走索引，MySQL内部自动做了隐式类型转换；相反对于varchar类型字段传入Int值是无法走索引的，应该做到对应的字段类型传对应的值总是对的。

#user_id&#x662F;bigint&#x7C7B;&#x578B;&#xFF0C;&#x4F20;&#x5165;varchar&#x503C;&#x53D1;&#x751F;&#x4E86;&#x9690;&#x5F0F;&#x7C7B;&#x578B;&#x8F6C;&#x6362;&#xFF0C;&#x53EF;&#x4EE5;&#x8D70;&#x7D22;&#x5F15;&#x3002;
select id, name , phone, address, device_no from users where user_id = '23126';
#card_no&#x662F;varchar(20)&#xFF0C;&#x4F20;&#x5165;int&#x503C;&#x662F;&#x65E0;&#x6CD5;&#x8D70;&#x7D22;&#x5F15;
select id, name , phone, address, device_no from users where card_no = 2312612121;

列字符集

从MySQL 5.6开始建议所有对象字符集应该使用用utf8mb4，包括MySQL实例字符集，数据库字符集，表字符集，列字符集。避免在关联查询Join时字段字符集不匹配导致索引失效，同时目前只有utf8mb4支持emoji表情存储。

character_set_server  =  utf8mb4    #&#x6570;&#x636E;&#x5E93;&#x5B9E;&#x4F8B;&#x5B57;&#x7B26;&#x96C6;
character_set_connection = utf8mb4  #&#x8FDE;&#x63A5;&#x5B57;&#x7B26;&#x96C6;
character_set_database = utf8mb4    #&#x6570;&#x636E;&#x5E93;&#x5B57;&#x7B26;&#x96C6;
character_set_results = utf8mb4     #&#x7ED3;&#x679C;&#x96C6;&#x5B57;&#x7B26;&#x96C6;

前缀索引

group by后面的列有索引，索引可以消除排序带来的CPU开销，如果是前缀索引，是不能消除排序的。

#device_no&#x5B57;&#x6BB5;&#x7C7B;&#x578B;varchar(200)&#xFF0C;&#x521B;&#x5EFA;&#x4E86;&#x524D;&#x7F00;&#x7D22;&#x5F15;&#x3002;
mysql> alter table users add index idx_device_no(device_no(64));

mysql> select device_no, count(*) from users where create_time between '2020-10-01 00:00:00' and '2020-10-30 00:00:00' group by device_no;

函数运算

假设需要统计某月每天的新增用户量，参考如下SQL语句，虽然可以走create_time的索引，但是不能消除排序，可以考虑冗余一个字段stats_date date类型来解决这种问题。

select DATE_FORMAT(create_time, '%Y-%m-%d'), count(*) from users where create_time between '2020-09-01 00:00:00' and '2020-09-30 23:59:59' group by DATE_FORMAT(create_time, '%Y-%m-%d');

前缀索引

order by后面的列有索引，索引可以消除排序带来的CPU开销，如果是前缀索引，是不能消除排序的。

字段顺序

排序字段顺序，asc/desc升降要跟索引保持一致，充分利用索引的有序性来消除排序带来的CPU开销。

limit m,n要慎重

对于limit m, n分页查询，越往后面翻页即m越大的情况下SQL的耗时会越来越长，对于这种应该先取出主键id，然后通过主键id跟原表进行Join关联查询。

表结构检查

在数据库设计建模阶段，对表名及字段名设置要合理，不能使用MySQL的关键字，如desc, order, status, group等。同时建议设置lower_case_table_names = 1表名不区分大小写。

对于OLTP业务系统，建议使用InnoDB引擎获取更好的性能，可以通过参数default_storage_engine控制。

建表的时候主键id带有AUTO_INCREMENT属性，而且AUTO_INCREMENT=1，在InnoDB内部是通过一个系统全局变量dict_sys.row_id来计数，row_id是一个8字节的bigint unsigned，InnoDB在设计时只给row_id保留了6个字节的长度，这样row_id取值范围就是0到2^48 – 1，如果id的值达到了最大值，下一个值就从0开始继续循环递增，在代码中禁止指定主键id值插入。

#&#x65B0;&#x63D2;&#x5165;&#x7684;id&#x503C;&#x4F1A;&#x4ECE;10001&#x5F00;&#x59CB;&#xFF0C;&#x8FD9;&#x662F;&#x4E0D;&#x5BF9;&#x7684;&#xFF0C;&#x5E94;&#x8BE5;&#x4ECE;1&#x5F00;&#x59CB;&#x3002;
create table booking( id bigint(20) NOT NULL AUTO_INCREMENT COMMENT '&#x4E3B;&#x952E;id',......) engine = InnoDB auto_increment = 10000;
<h1 id="&#x6307;&#x5B9A;&#x4E86;id&#x503C;&#x63D2;&#x5165;&#x540E;&#x7EED;&#x81EA;&#x589E;&#x5C31;&#x4F1A;&#x4ECE;&#x8BE5;&#x503C;&#x5F00;&#x59CB;1&#x7D22;&#x5F15;&#x7981;&#x6B62;&#x6307;&#x5B9A;id&#x503C;&#x63D2;&#x5165;">&#x6307;&#x5B9A;&#x4E86;id&#x503C;&#x63D2;&#x5165;&#xFF0C;&#x540E;&#x7EED;&#x81EA;&#x589E;&#x5C31;&#x4F1A;&#x4ECE;&#x8BE5;&#x503C;&#x5F00;&#x59CB;+1&#xFF0C;&#x7D22;&#x5F15;&#x7981;&#x6B62;&#x6307;&#x5B9A;id&#x503C;&#x63D2;&#x5165;&#x3002;</h1>

insert into booking(id, book_sn) values(1234551121, 'N12121');

根据业务含义，尽量将字段都添加上NOT NULL DEFAULT VALUE属性，如果列值存储了大量的NULL，会影响索引的稳定性。

在创建表的时候，建议每个字段尽量都有默认值，禁止DEFAULT NULL，而是对字段类型填充响应的默认值。

字段的备注要能明确该字段的作用，尤其是某些表示状态的字段，要显式的写出该字段所有可能的状态数值以及该数值的含义。

不建议使用Text数据类型，一方面由于传输大量的数据包可能会超过max_allowed_packet设置导致程序报错，另一方面表上的DML操作都会变的很慢，建议采用es或者对象存储OSS来存储和检索。

索引检查

索引基数指的是被索引的列唯一值的个数，唯一值越多接近表的count(*)说明索引的选择率越高，通过索引扫描的行数就越少，性能就越高，例如主键id的选择率是100%，在MySQL中尽量所有的update都使用主键id去更新，因为id是聚集索引存储着整行数据，不需要回表，性能是最高的。

mysql> select count(*) from member_info;
+----------+
| count(*) |
+----------+
|   148416 |
+----------+
1 row in set (0.35 sec)
<p>mysql> show index from member_base_info;
+------------------+------------+----------------------------+--------------+-------------------+-----------+-------------+----------+--------+------+------------+---------+---------------+
| Table            | Non_unique | Key_name                   | Seq_in_index | Column_name       | Collation | Cardinality | Sub_part | Packed | Null | Index_type | Comment | Index_comment |
+------------------+------------+----------------------------+--------------+-------------------+-----------+-------------+----------+--------+------+------------+---------+---------------+
| member_info |          0 | PRIMARY                    |            1 | id                | A         |      131088 | NULL     | NULL   |      | BTREE      |         |               |
| member_info |          0 | uk_member_id               |            1 | member_id         | A         |      131824 | NULL     | NULL   |      | BTREE      |         |               |
| member_info |          1 | idx_create_time            |            1 | create_time       | A         |        6770 | NULL     | NULL   |      | BTREE      |         |               |
+------------------+------------+----------------------------+--------------+-------------------+-----------+-------------+----------+--------+------+------------+---------+---------------+</p>
<h1 id="table-&#x8868;&#x540D;">Table&#xFF1A; &#x8868;&#x540D;</h1>
<h1 id="non_unique-&#x662F;&#x5426;&#x4E3A;unique-index0-&#x662F;1-&#x5426;">Non_unique &#xFF1A;&#x662F;&#x5426;&#x4E3A;unique index&#xFF0C;0-&#x662F;&#xFF0C;1-&#x5426;&#x3002;</h1>
<h1 id="key_name&#x7D22;&#x5F15;&#x540D;&#x79F0;">Key_name&#xFF1A;&#x7D22;&#x5F15;&#x540D;&#x79F0;</h1>
<h1 id="seq_in_index&#x7D22;&#x5F15;&#x4E2D;&#x7684;&#x987A;&#x5E8F;&#x53F7;&#x5355;&#x5217;&#x7D22;&#x5F15;-&#x90FD;&#x662F;1&#x590D;&#x5408;&#x7D22;&#x5F15;-&#x6839;&#x636E;&#x7D22;&#x5F15;&#x5217;&#x7684;&#x987A;&#x5E8F;&#x4ECE;1&#x5F00;&#x59CB;&#x9012;&#x589E;">Seq_in_index&#xFF1A;&#x7D22;&#x5F15;&#x4E2D;&#x7684;&#x987A;&#x5E8F;&#x53F7;&#xFF0C;&#x5355;&#x5217;&#x7D22;&#x5F15;-&#x90FD;&#x662F;1&#xFF1B;&#x590D;&#x5408;&#x7D22;&#x5F15;-&#x6839;&#x636E;&#x7D22;&#x5F15;&#x5217;&#x7684;&#x987A;&#x5E8F;&#x4ECE;1&#x5F00;&#x59CB;&#x9012;&#x589E;&#x3002;</h1>
<h1 id="column_name&#x7D22;&#x5F15;&#x7684;&#x5217;&#x540D;">Column_name&#xFF1A;&#x7D22;&#x5F15;&#x7684;&#x5217;&#x540D;</h1>
<h1 id="collation&#x6392;&#x5E8F;&#x987A;&#x5E8F;&#x5982;&#x679C;&#x6CA1;&#x6709;&#x6307;&#x5B9A;ascdesc&#x9ED8;&#x8BA4;&#x90FD;&#x662F;&#x5347;&#x5E8F;asc">Collation&#xFF1A;&#x6392;&#x5E8F;&#x987A;&#x5E8F;&#xFF0C;&#x5982;&#x679C;&#x6CA1;&#x6709;&#x6307;&#x5B9A;asc/desc&#xFF0C;&#x9ED8;&#x8BA4;&#x90FD;&#x662F;&#x5347;&#x5E8F;ASC&#x3002;</h1>
<h1 id="cardinality&#x7D22;&#x5F15;&#x57FA;&#x6570;-&#x7D22;&#x5F15;&#x5217;&#x552F;&#x4E00;&#x503C;&#x7684;&#x4E2A;&#x6570;">Cardinality&#xFF1A;&#x7D22;&#x5F15;&#x57FA;&#x6570;-&#x7D22;&#x5F15;&#x5217;&#x552F;&#x4E00;&#x503C;&#x7684;&#x4E2A;&#x6570;&#x3002;</h1>
<h1 id="sub_part&#x524D;&#x7F00;&#x7D22;&#x5F15;&#x7684;&#x957F;&#x5EA6;&#x4F8B;&#x5982;index-member_name10&#x957F;&#x5EA6;&#x5C31;&#x662F;10">sub_part&#xFF1A;&#x524D;&#x7F00;&#x7D22;&#x5F15;&#x7684;&#x957F;&#x5EA6;&#xFF1B;&#x4F8B;&#x5982;index (member_name(10)&#xFF0C;&#x957F;&#x5EA6;&#x5C31;&#x662F;10&#x3002;</h1>
<h1 id="packed&#x7D22;&#x5F15;&#x7684;&#x7EC4;&#x7EC7;&#x65B9;&#x5F0F;&#x9ED8;&#x8BA4;&#x662F;null">Packed&#xFF1A;&#x7D22;&#x5F15;&#x7684;&#x7EC4;&#x7EC7;&#x65B9;&#x5F0F;&#xFF0C;&#x9ED8;&#x8BA4;&#x662F;NULL&#x3002;</h1>
<h1 id="nullyes&#x7D22;&#x5F15;&#x5217;&#x5305;&#x542B;null&#x503C;&#x7D22;&#x5F15;&#x4E0D;&#x5305;&#x542B;null&#x503C;">Null&#xFF1A;YES:&#x7D22;&#x5F15;&#x5217;&#x5305;&#x542B;Null&#x503C;&#xFF1B;'':&#x7D22;&#x5F15;&#x4E0D;&#x5305;&#x542B;Null&#x503C;&#x3002;</h1>
<h1 id="index_type&#x9ED8;&#x8BA4;&#x662F;btree&#x5176;&#x4ED6;&#x7684;&#x503C;fulltexthashrtree">Index_type&#xFF1A;&#x9ED8;&#x8BA4;&#x662F;BTREE&#xFF0C;&#x5176;&#x4ED6;&#x7684;&#x503C;FULLTEXT&#xFF0C;HASH&#xFF0C;RTREE&#x3002;</h1>

对于变长字符串类型varchar(m)，为了减少key_len，可以考虑创建前缀索引，但是前缀索引不能消除group by， order by带来排序开销。如果字段的实际最大值比m小很多，建议缩小字段长度。

alter table member_info add index idx_member_name_part(member_name(10));

有很多人喜欢在创建复合索引的时候，总以为前导列一定是唯一值多的列，例如索引index idx_create_time_status(create_time, status)，这个索引往往是无法命中，因为扫描的IO次数太多，总体的cost的比全表扫描还大，CBO最终的选择是走full table scan。

MySQL遵循的是索引最左匹配原则，对于复合索引，从左到右依次扫描索引列，到遇到第一个范围查询（>=, >,

Original: https://www.cnblogs.com/aobing/p/13983556.html
Author: 敖丙
Title: 大厂是怎么进行SQL调优的？

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/592403/

转载文章受原作者版权保护。转载请注明原作者出处！

Java

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

Lambda-让人又爱又恨的“->”

写在前边聊到Java8新特性，我们第一反应想到的肯定是Lambda表达式和函数式接口的出现。要说ta到底有没有在一定程度上”优化”了代码的简洁性呢？抑或是…

Java 2023年6月5日
0088
最大子段和（分而治之）

分治法 (O(n\log{n})) 按照”分而治之”的思想，将整个数据区间从中间一分为二，这样我们就将求整个区间的最大子列和转换为求小区间的最大子列和。设…

Java 2023年6月9日
0062
java中的定时任务

java中的定时任务, 使用java实现有3种方式: １，使用普通thread实现 2, 使用timer实现: 可控制启动或取消任务, 可指定第一次执行的延迟线程安全, 但只会…

Java 2023年5月29日
0076
Spring Tool 历史版本下载

参考资料说在前面历史版本下载规律参考资料 Spring Tool Suit3下载地址说在前面官方目前只提供最新版本的 Spring Tool 4下载，并没有提供历史版本…

Java 2023年6月9日
0075
MySQL

数据库：英文单词DataBase，简称DB。按照一定格式存储数据的一些文件的组合。顾名思义是存储数据的仓库，实际上就是一堆文件，这些文件中存储了具有特定格式的数据数据库管理系统：…

Java 2023年6月6日
0059
Java 知识积累方便以后随时查看

一、Java数据类型 8种基本数据类型：字符型char，布尔型boolean，数值型（整型和浮点型）其中整型包括（byte，short，int，long），浮点型（float，d…

Java 2023年5月29日
0071
InnoDB学习（八）之聚簇索引

InnoDB中，表数据文件本身就是以主键为索引的B+树，树的叶子节点存放一条条表数据，此索引树被称为表的聚簇索引。聚簇索引也称为聚集索引，聚类索引，簇集索引，聚簇索引确定表中数据的…

Java 2023年6月8日
00104
[转]jdk8中map新增的merge方法

1 前言 2 内容 1.Map.merge方法介绍 jdk8对于许多常用的类都扩展了一些面向函数，lambda表达式，方法引用的功能，使得java面向函数编程更为方便。其中Map….

Java 2023年5月30日
00163
Swagger框架

开发软件：IDEA 项目类型：SpringBoot的JavaWeb 官网：https://swagger.io/ 在线文档：https://swagger.io/docs/spec…

Java 2023年6月9日
0091
C语言实现顺序栈、单链栈、双向链栈

#define Maxlength 8 /** * 数据结构类型：顺序栈 * 插入方法：尾插法 * 是否有头节点：否 * 说明：在主函数直接定义一个结构体节点，取地址作形参，避免使…

Java 2023年6月9日
0068
地图坐标：地图火星坐标、地球坐标、百度坐标偏差转换(java代码)

简单说明什么是坐标偏移? http://yanue.net/post-121.html 地球坐标 (WGS84) 国际标准，从 GPS 设备中取出的数据的坐标系 *国际地图提供商使…

Java 2023年5月29日
0080
Spring官网下载dist.zip的几种方法

Spring官网改版后，很多项目的完整zip包下载链接已经隐掉了，虽然Spring旨在引导大家用更”高大上”的maven方式来管理所依赖的jar包，但是完全…

Java 2023年5月30日
0072
阿里云云效流水线自动部署配置

最近使用阿里云的云效流水线进行应用自动部署，在这里做下记录。首先进入到阿里云云效流水线页面，入下图显示。点击右上角的新建流水线，选择流水线模板。我的项目是java，服务器是阿里…

Java 2023年6月16日
00113
Java AQS 的胡言乱语修正版

前言适合读者：3 年以上经验的同学谈到并发编程，基本上都会想到JDK 的 JUC 工具包，它包含锁，并发工具类，原子类，线程池，还有阻塞队列，这是从网上找的一个大致的知识体系…

Java 2023年6月5日
00105
这样的阅读工具，人手一个不过分吧？

无意间被同事看到，惊呼，你是怎么在网页上做标记的？这其实是我个人浏览网页，每日浏览大量信息，从中标记重要信息必备的工具个人痛点每日要浏览很多网页或者查阅资料，浏览过后重新定位…

Java 2023年6月7日
0088
spring boot 配置随机数那些小技

Spring Boot 是支持在系统加载的时候配置随机数的 1.添加config/random.properties文件 #随机32位MD5字符串 user.random.secr…

Java 2023年5月30日
0076

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

大厂是怎么进行SQL调优的？

SQL规范性检查

表结构检查

索引检查

大家都在看