MySQL表空间回收的正确姿势

2023年6月13日上午7:29 • Linux • 阅读 85

不知道大家有没有遇到这样的一种情况，线上业务在MySQL表上做增删改查操作，随着时间的推移，表里面的数据越来越多，表数据文件越来越大，数据库占用的空间自然也逐渐增长

为了缩小磁盘上表数据文件占用的空间，我们在最大的一张业务表中用delete命令删除了一半儿的旧数据，删除之后，磁盘上表数据文件并没有缩小，即使删除整张表的数据，文件依然没有变小，这是为什么呢？

本文将详细的分析上述问题，并给出正确回收表空间的方法

前置说明

目前大部分MySQL数据库都是用的 InnoDB 引擎，所以如无特殊说明，文中的实例都是基于InnoDB引擎的

在MySQL配置中有个配置项叫 innodb_file_per_table 将它设置为1之后，
每个表的数据会单独存储在一个以 .ibd 为后缀的文件中

如果 innodb_file_per_table 没有开启的话，
表的数据是存储在系统的共享表空间，这样即使删除了表，共享表空间也不会释放这部分空间

所以，通常情况下，都是将 innodb_file_per_table 选项设置为 1, 同时为了能直观的看到表数据文件的大小变化，文中的实例也都是基于开启了此选项来说明的

问题重现

新建一张表 ta，表的结构如下

mysql> show create table ta\G
*************************** 1. row ***************************
       Table: ta
Create Table: CREATE TABLE ta (
  id int(11) NOT NULL,
  ia int(11) NOT NULL,
  PRIMARY KEY (id)
) ENGINE=InnoDB DEFAULT CHARSET=utf8
1 row in set (0.00 sec)

使用下面的存储过程，向 ta 中批量插入数据

delimiter //
create procedure multinsert(in beg int,in cnt int)
begin
    declare icnt int default 0;
    declare tmp int default 0;
    while icnt < cnt do
        set icnt = icnt + 1;
        set tmp = beg + icnt;
        insert into ta(id,ia) values(tmp,tmp);
    end while;
end//

delimiter ;

在MySQL控制台执行 call multinsert(0,100000) 命令，往 ta表插入10万条数据

mysql> call multinsert(0,100000);
mysql> select count(*) from ta;
+----------+
| count(*) |
+----------+
|   100000 |
+----------+
1 row in set (0.02 sec)

查看磁盘上 ta表的数据文件 ta.ibd 的大小

[root@ecs-centos-7 test]# cd /var/lib/mysql/test/
[root@ecs-centos-7 test]# ls -l ta.ibd
-rw-r----- 1 mysql mysql 11534336 1&#x6708;   3 23:14 ta.ibd

从上面的结果可以知道， ta表插入10万条数据之后， ta.ibd 大小为 11534336 字节( 大约 11M )

现在我们使用 delete 命令删除一半儿表数据( 5万行记录 )

mysql> delete from ta where id between 1 and 50000;
Query OK, 10000 rows affected (0.03 sec)
mysql> select count(*) from ta;
+----------+
| count(*) |
+----------+
|    50000 |
+----------+
1 row in set (0.02 sec)

删除操作完成之后，再次查看磁盘上 ta.ibd 的大小

[root@ecs-centos-7 test]# cd /var/lib/mysql/test/
[root@ecs-centos-7 test]# ls -l ta.ibd
-rw-r----- 1 mysql mysql 11534336 1&#x6708;   3 23:14 ta.ibd

从上面的结果可以知道， ta表删除了一半儿，也就是5万行数据之后， ta.ibd的大小是 11534336 字节( 约11M )

也就是说 ta表删除数据前后，磁盘上表数据文件并没有缩小

要弄明白数据文件为什么没有缩小，就需要深入了解删除数据的原理

删除数据原理

我们都知道，InnoDB里的数据都是用B+树组织的，关于B+树的知识请参考理解B+树

图(1)

上面是InnoDB的索引示意图，其中用虚线框起来的节点是属于Page1数据页，叶子节点存储的是索引对应的数据，它们按照索引从小到大的顺序组成了一个有序数组

假如我们要删除Page1页中索引key值为 13 的数据，也即上图中红色部分

InnoDB引擎会把索引key值为13的节点标记为已删除，它并不会回收节点真实的物理空间，只是将它标记为已删除的节点，后续是可以复用的，所以，删除表记录，磁盘上数据文件不会缩小

你可能会说，上面只是删除了Page1页中一个节点的数据，那如果把Page1页中节点数据全部删除了，应该会回收Page1页的空间吧？

答案是，不会回收

当Page1页数据全部删除了，整个数据页都会被标记为已删除，并且整个数据页都可以复用，所以，这种情况下，磁盘上的数据文件仍然不会缩小

数据的复用

数据的复用涉及到数据节点的插入、删除、转移以及数据页的合并等操作，具体的操作流程相关的细节请参考理解B+树，这里就不再重复说明了

数据节点的复用

在上面图(1) 中，当删除了索引key值为 13 的节点后，此节点就被标记为可复用的

如果之后又插入了一条索引key值在 7 到 18 之间的记录时，就会复用原来索引key值为13的数据节点

但是如果之后插入的记录的索引key值不在 7 到 18 之间时，可能就无法复用原来索引key值为13的数据节点

也就是说，数据节点的复用，需要索引key值满足一定的范围条件

数据页的复用

在图(1) 当删除了Page1数据页全部数据节点后，Page1整页都是可复用的，当插入的记录需要用到新页的时候，Page1就可以被复用

当相邻的数据页利用率比较低的时候，有可能会把它们合并到其中一个数据页中，这时，另外一个数据页就空出来了，这个空出来的数据页就变成可复用的了

哪些操作会造成数据空洞

我们用 delete 命令删除一条记录后，InnoDB只是把对应的数据节点标记为已删除且可复用的，这些可空着的等待使用的数据节点可以看作是一个一个的数据空洞

删除数据

删除数据的时候，会造成数据空洞，前面已经解释过，这里不再赘述了

插入数据

如果数据是按照索引大小顺序插入，这个时候数据页是紧凑的，不会出现数据空洞

如果是从索引中间插入的话，有可能会造成页分裂，分裂之后的页有可能出现数据空洞，下图就是插入导致页分裂的一个例子

如图所示，分裂前叶子页面已经满了，这时数据排列得很紧凑

现在插入了一个索引key值为15的数据，插入之后，Page1 页分裂成了上图中 Page1，Page2两个页面

分裂之后，Page1 页面出现了两个空洞，这两个数据节点是可复用的，而 Page2页面刚好满了

更新数据

更新数据可以看成先删除再插入，也是有可能造成数据空洞

比如: id 是表 ta的主键， update ta set id = 10 where id = 1 语句把 id = 1 修改为 id = 10，相当于先删除 id = 1 的记录，再插入 id = 10 的记录，这种情况是会产生数据空洞的

但是如果是类似 update ta set ia = ia + 1 where id = 1 这种没有更改主键值的语句是不会造成空洞的

所以，更新数据可能会造成数据空洞

总结下来就是，表的增删改操作，可能会造成数据空洞的，而线上的服务会对表进行大量的增删改操作，数据空洞存在的可能性比较大

如何收缩表空间

既然一张表，经过大量无规则的增删改操作之后，会产生大量的数据空洞

那如果我们新建一张和原来有数据空洞的表结构相同的新表，然后把旧表中的数据按照索引升序依次插入到新表中，待旧表数据全部插入到新表之后，删除旧表，再把新表重命名为旧表的名字

由于新表中叶子节点数据是按顺序添加的，所以页面是很紧凑的, 页面利用率很高，需要的页面比旧表少了很多，这样旧表中索引上的空洞在新表就不存在了，新表数据文件占用的磁盘空间自然就会缩小，这样就实现了表空间的收缩的目的

下面介绍的几种收缩表空间的方法，虽然方法不同，但是基本的原理都是通过重建表的形式来达到目的的

truntace table 表名

此操作等于 drop + create，先删除表，然后再创建一个同名的新表，当然，再执行 truncate table 命令之前需要先保存一份旧表的数据，命令执行完成之后，再把这份数据导入新表

alter table 表名 engine=InnoDB

这个操作是遍历旧表主键索引的数据页，把数据页中的记录生成B+树结构，存储到磁盘上的临时文件中，数据页遍历完了之后，用临时文件替换掉旧表的数据文件

从MySQL5.6版本之后，这个操作是 Online DDL 的，需要说明的是，这种方法需要扫描表数据文件，对于大表来说是非常耗时的，如果是针对线上服务的话，需要避开业务高峰期，小心操作。

注意:
在重建表的时候，InnoDB 不会把整张表占满，每个页留了大概10%左右的数据节点给后续的更新用, 也就是说，其实重建表之后并不是最紧凑的

假如有这么一个过程: 将表 t 重建一次,
插入一部分数据，但是插入的这些数据，用掉了一部分的预留空间，
这种情况下，再重建一次表 t，就可能会出现重建表后比重建之前占用的空间还要大

小结

本文从一个实际的问题出发，重现问题、分析问题到解决问题，每一步都进行了详细的分析，限于篇幅，有些细节没有深入，需要读者自行了解

Original: https://www.cnblogs.com/wanng/p/mysql-recycle-table-space.html
Author: Linux开发那些事儿
Title: MySQL表空间回收的正确姿势

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/606872/

转载文章受原作者版权保护。转载请注明原作者出处！

Linux

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

FusionAccess桌面云安装(windows AD方法)

创建FusionAccess虚拟机选择自定义默认兼容选择稍后安装操作系统选择Linux SUSE Linux 名字位置自己选择选择最少4个处理器选择最少8G内存选择仅…

Linux 2023年6月8日
00101
Linux命令篇-wc 命令

wc – print newline, word, and byte counts for each file wc: 统计文件的 字&#…

Linux 2023年6月13日
0090
YUM简单入门

1.制作YUM源先关闭相关安全设置，安装vsftpd 挂载到共享目录对新增的安装包目录生成包的元数据(把包中依赖关系统计) 配置yum路径特性生成yum 2.YUM命令简单使用…

Linux 2023年6月7日
0093
IDEA 构建 mybatis 源码

mybatis 源码构建 mybatis-source 下载 mybatis源码下载 mybatis-parent 版本信息 mybatis-parent 下载 mybatis-p…

Linux 2023年6月13日
0084
LeetCode 543-二叉树的直径

题目描述：给定一棵二叉树，你需要计算它的直径长度。一棵二叉树的直径长度是任意两个结点路径长度中的最大值。这条路径可能穿过根结点。示例：给定二叉树返回 3, 它的长度是路径 …

Linux 2023年6月7日
0062
zabbix用户，角色，权限，模板管理

zabbix用户，角色，权限，模板管理 zabbix用户，角色，权限，模板管理用户组用户角色右上角是创建角色用户lnh@1234使用刚才创建的用户登录模板组模板模板的监控项可以自…

Linux 2023年6月6日
0095
19-TCP、UDP的区别和应用场景

可靠性TCP 提供交付保证，这意味着一个使用TCP协议发送的消息是保证交付给客户端的，如果消息在传输过程中丢失，那么它将重发。UDP是不可靠的，它不提供任何交付的保证，一个数据包在…

Linux 2023年6月7日
0073
【论文笔记】（知识蒸馏）Distilling the Knowledge in a Neural Network

摘要模型平均可以提高算法的性能，但是计算量大且麻烦，难以部署给用户。《模型压缩》这篇论文中表明，知识可以从复杂的大型模型或由多个模型构成的集成模型中压缩并转移到一个小型模型中，本…

Linux 2023年6月7日
00163
【填空题】考研数据结构填空题整理

数据结构填空题题源来自《算法与数据结构考研试题精析》、《王道数据结构》在Liang’s Blog所著的文章上补充考点，仅供参考学习一、概论数据元素是数据的基本单…

Linux 2023年6月13日
00104
【考研】C语言

考研C语言收录数据结构会用到的C语言知识，建议有基础的情况下再学习，针对性学习即可。往后的学习要多从内存角度去学习计算机的知识 1. 数组 1.1 一维数值数组具备相同的数据…

Linux 2023年6月13日
0099
Linux虚拟机上按安装jdk1.8.0

Linux虚拟机上按安装jdk1.8.0 1.准备工作 jdk1.8.0下载地址： http://www.oracle.com/technetwork/java/javase/do…

Linux 2023年6月11日
0075
Scrapy关键词爬虫的简单实现（以新华网和人民网为例）

新华网爬虫（2022年6月） 1 分析网站结构新华网网址：新华网_让新闻离你更近 (news.cn) 新华网的首页是带有关键词搜索功能的，我们尝试在搜索栏随意搜索一个关键词可以…

Linux 2023年6月7日
00101
Redis的Docker安装及基本使用

Redis 端口 6379 通过以下命令启动一个简单的Redis容器 docker run –name some-redis -d -p 6379:6379 redis:6.2….

Linux 2023年5月28日
0079
K8S的apiVersion版本详解

1. 背景 Kubernetes的官方文档中并没有对apiVersion的详细解释，而且因为K8S本身版本也在快速迭代，有些资源在低版本还在beta阶段，到了高版本就变成了stab…

Linux 2023年6月14日
0073
Redis缓存查询时报字段无法识别问题-SerializationException: Could not read JSON: Unrecognized xxx

报错信息： Servlet.service() for servlet [dispatcherServlet] in context with path [] threw exce…

Linux 2023年6月14日
0087
UE4游戏上架Steam全流程

本人使用的是UE4.27.2, Windows 11操作系统。首先，在ue4项目的插件设置中，勾选Online Subsystem 和 Online Subsystem Stea…

Linux 2023年6月6日
0091

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30