动手实验查看MySQL索引的B+树的高度

2023年6月14日下午8:58 • 数据库 • 阅读 107

一：文中几个概念

h：统称索引的高度；
h1：主键索引的高度；
h2：辅助索引的高度；
k：非叶子节点扇区个数。

二：索引结构

叶子节点其实是双向链表，而叶子节点内的行数据是单向链表，该图未体现。
动手实验查看MySQL索引的B+树的高度

磁盘块其实是页，用操作系统中的术语来表达而已。
InnoDB中使用的是B+树聚集索引，主键索引叶子节点有整行的数据，辅助索引有主键值（用于回表查询）和索引值。

2.1 页的概念

Mysql的InnoDB是以页为存储单位的，每个B+Tree的节点都是一个页的大小，默认一页的大小是16K（与操作系统数据读取相关）。

数据页（即叶子节点）

2.2 索引高度h与页面I/O数的关系

每次查询都要访问到叶子结点，其访问的页面数正好就是索引的高度h。例如，一次主键上的点查询SELECT * FROM USER WHERE id=1，那么要查询h1个页面才能找到叶子结点里的行数据，也即进行h1次页面I/O。（另外，二级索引基本都加载在内存里了，这里我们暂忽略这种情况。）

综上，查询对应的页面I/O数跟利用的索引有关，主要分为以下几种情况：

点查询：
聚族索引：h1
二级索引：
- 覆盖索引：h2
- 回表查询：h2+h1
范围查询：这种情况相对比较复杂，但跟点查询的原理类似，读者可自行分析；
全表查询：B+树的叶子结点是通过链表连接起来的，对于全表查询，需要从头到尾将所有的叶子结点访问一遍。

2.3 索引高度理论计算

索引页（非叶子节点）中可以分割为多个扇区，每个扇区再指向某子节点（某页）。
假设非叶子节点扇区数为k个、高度h、叶子结点的行记录数为n，则叶子结点数为k(h-1)，总记录数为k(h-1)n。
InnoDB每个页面默认16KB，假设主键是4B的int类型。对于非叶子节点，每个主键值后有个页号4B，还有6B的其他数据(参考《MySQL技术内幕：InnoDB存储引擎》)，那么扇区个数k=16KB/(4B+4B+6B)≈1170。
假设每行记录大小为1KB，则每个叶子结点可以容纳的记录数n=16KB/1KB=16。*

在高度h=3时，叶子结点数=1170^2 ≈137W，总记录数=1170^2*16=2190W！！也就是说，InnoDB通过三次索引页面的I/O，即可索引2190W行记录。

同理，在高度h=4时，总行数=1170^3*16≈256亿条！

三、动手查看索引真实高度

页的Page Header包含一个PAGE_LEVEL的信息，用于表示当前页所在索引中的高度。默认叶子节点的高度为0，那么Root页（根节点）的PAGE_LEVEL+1就是这棵索引的高度。

**怎样得到一张含有所有索引的Root页所在的位置的表呢？在《MySQL技术内幕：InnoDB存储引擎》书中分析过这个页（即ibd文件的第3个页面，从0开始）是聚簇索引的Root页，在《MySQL内核：InnoDB存储引擎卷1》中也分析，Root页的位置通常是不会更改的。那么其他索引的Root页所在的位置呢？通过下面的SQL语句可以查出表中各索引的Root页信息：

SELECT b.name, a.name, index_id, type, a.space, a.PAGE_NO
FROM information_schema.INNODB_SYS_INDEXES a,
     information_schema.INNODB_SYS_TABLES b
WHERE a.table_id = b.table_id
      AND a.space <> 0;

其中就是索引的Root页信息，SPACE可以认为是表的ibd文件，PAGE_NO代表ibd文件中的页面号（从0开始）。有了这些信息就可以方便的定位了，因为PAGE_LEVEL在每个Root页的偏移量64位置处，占用两个字节，这样我们通过hexdump（show global variables like “%datadir%”可以查看MySQL数据文件位置）就可以快速定位到各索引树的高度信息了。例如，我们通过如下命令查看guli/edu_comment表主键索引的高度：

$hexdump -C -s 49216 -n 10 edu_comment.ibd
0000c040  00 01 00 00 00 00 00 00  00 9a                    |..........|
0000c04a

这里，49216表示的是163843+64，即从第3个页内偏移量64位置开始读取10个字节，前两个字节为PAGE_LEVEL，后8个字节是index_id，就是上图中看到的index_id=154（0x9a(十六进制) = 154(十进制)）的主键索引，这里 PAGE_LEVEL为00 01*，那么索引树的高度就为2。

四、插入10w条数据查看索引的高度

delimiter;
create procedure idata()
begin
declare i int;
set i=1;
while(i<=100000)do insert into guli.edu_comment (id, course_id, teacher_id, member_id, nickname, avatar, content, is_deleted, gmt_create, gmt_modified) values (i, '1192252213659774977', '1189389726308478977', '1', '小三123', 'ht', '课程很好', 0, '2019-11-13 14:16:08', 14:16:08'); set i="i+1;" end while; end;; delimiter; < code></=100000)do>

经过1分多钟的插入，edu_comment表中的数据已经达到了10w条，再次查看主键索引的高度。

$hexdump -C -s 49216 -n 10 edu_comment.ibd
0000c040  00 02 00 00 00 00 00 00  00 9a          |..........|
0000c04a

可以看到主键索引的高度来到了3层，由于服务器硬盘容量较小，插入了1900w条数据。主键索引在数据量达到3w左右会从2层高度上升到3层（辅助索引会在数据量为数万到数十万时上升到3层高度，因为仅含主键值和索引值，没有整行数据）。根据网上资料，数据量在2000w左右时，树的高度会达到4层，数据库性能下降较为明显，2000w分库分表的由来。

$hexdump -C -s 49216 -n 10 edu_comment.ibd
0000c040  00 03 00 00 00 00 00 00  00 9a                    |..........|
0000c04a

主键索引高度来到了4层，主键类型为char(19)。

索引高度h也跟索引字段的数据类型有关。如果是int或short，扇区多，索引效率更好，整个索引看起来属于”矮胖”型；而如果是varchar(32)等，那扇区少，整个索引看起来属于”瘦高”型，索引效率自然要低些。所以我们在字段选取类型时，其类型越简单效率越好。

分页查询效率：

参考资料：
[1]MySQL索引的B+树到底有多高？
https://mp.weixin.qq.com/s/VmgpA3fZlv0JxERYB2tt5g
[2]面试官：MYSQL单表数据达2000万性能严重下降，为什么?

https://mp.weixin.qq.com/s/7_Wv3wZX5sOxF17iSM436A
[3]一文搞懂MySQL索引页结构
http://www.cppcns.com/shujuku/mysql/463625.html
[4]再有人问你为什么MySQL用B+树做索引，就把这篇文章发给她
https://mp.weixin.qq.com/s/8nx4yLOg542p_fmqjKDrKw
[5] http://blog.codinglabs.org/articles/theory-of-mysql-index.html

Original: https://www.cnblogs.com/BetterCallSaul/p/MySQL.html
Author: 得失乐与悲与梦儿
Title: 动手实验查看MySQL索引的B+树的高度

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/612616/

转载文章受原作者版权保护。转载请注明原作者出处！

数据库

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

【StoneDB技术解析】验证相关数据包是否需要解压缩

在StoneDB中，数据包分为以下几类：通过对数据包的划分，知识网格技术过滤掉不相关的数据包，读取相关的数据包和可疑的数据包。其中相关的数据包不需要解压缩，只读取元数据，不会发生…

数据库 2023年5月24日
0082
IntelliJ IDEA 断开svn连接

1 设置菜单 2 进入pluglns 菜单，点击 browse repositonries….. 3 搜索 svn disconnect，然后安装插件 4 安装插件后，…

数据库 2023年6月6日
00165
Isilon 的OneFs常见操作命令（一）

1背景知识： Isilon的oneFS是基于Free BSD的，FreeBSD 是一种类UNIX操作系统，因此有些类似Linux操作系统的常见命令可以直接使用，但有些又略微差别，需…

数据库 2023年6月14日
00344
MySQL使用步骤

出现mysqld: Can’t create directory ‘D:\Environment\mysql-5.7.37 \data’ (Er…

数据库 2023年5月24日
00149
小米路由器3刷x-wrt分享

准备工作刷机有风险，操作需谨慎，建议使用备用路由器，以免与世隔绝。原文教程较为详细，因此本文就文件分享，及操作经验，具体请观看原文。小米路由器3官方降级固件： http://b…

数据库 2023年6月11日
00101
MyBatisPlus代码生成示例

一、依赖 com.baomidou mybatis-plus-generator 3.5.3 org.projectlombok lombok 1.18.16 compile or…

数据库 2023年6月11日
0089
关于缓存一致性协议、MESI、StoreBuffer、InvalidateQueue、内存屏障、Lock指令和JMM的那点事

前言事情是这样的，一位读者看了我的一篇文章，不认同我文章里面的观点，于是有了下面的交流。可能是我发的那个狗头的表情，让这位读者认为我不尊重他。于是，这位读者一气之下把我删掉了，…

数据库 2023年6月16日
0096
[spring]spring注解开发

8.使用注解开发 1.bean spring4以后，注解依赖于aop包，确保你的lib中有它确保开启了使用注解 2.组件代替bean实现自动注入在配置文件中自动扫描包下的所有类…

数据库 2023年6月16日
0084
macOS快捷键

1. 最小化所有应用程序 command+option+h+m 2. 同应用窗口切换 command ～ 3. 截图 "全&a…

数据库 2023年6月14日
0078
学习笔记——Django项目的删除数据、查询数据（filter、get、exclude）

2022-09-30 删除数据：方式一：打开pycharm，进入虚拟环境，进入shell环境（python manage.py shell）。删除数据，接上面的笔记——&#8…

数据库 2023年6月14日
00121
SQL 版本号排序

SQL 语句直接对内容为版本号格式的字段进行排序时，排序效果通常不是最终想要的效果，因为最终需要的效果，是需对版本号里的每一段（通常以小数点分隔）按数值进行排序。解决这个问题，主…

数据库 2023年5月24日
0076
show engine innodb status 输出结果解读

show engine innodb status 输出结果解读基于MySQL 5.7.32最近想整理一下show engine innodb status的解读，但是发现中文互…

数据库 2023年6月16日
00114
强烈推荐一款优秀且通用的后台管理系统

最近看到一款优秀的通用管理后台——likeadmin，推荐给大家。likeadmin的部署方式简单，界面美观，基于MIT协议，完全免费，非常值得一用。 likeadmin快速开发通…

数据库 2023年6月14日
0094
CSS进阶内容—浮动和定位详解

CSS进阶内容—浮动和定位详解我们在学习了CSS的基本知识和盒子之后，就该了解一下网页的整体构成了当然如果没有学习之前的知识，可以到我的主页中查看之前的文章： CSS的三种布局…

数据库 2023年6月14日
0079
了解Threejs中的Clock对象以及简单应用

什么是Clock对象如果你对 JavaScript 有一定了解，那么 JavaScript 的时间对象 Date 你一定不陌生，Clock 本质上就是对 Date 进行封装，提供…

数据库 2023年6月11日
0095
Redis-切片集群

扩容的思路纵向扩展 scale up: 一台8G的变成一台24G的 👍 简单 👎 受硬件条件的限制 👎 单机容量大对性能的影响，如Redis的fork操作耗时是和内存数据量正相关…

数据库 2023年6月11日
0077

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

动手实验查看MySQL索引的B+树的高度

2.1 页的概念

2.2 索引高度h与页面I/O数的关系

2.3 索引高度理论计算

大家都在看