一文搞懂LSM-Tree

2023年6月7日下午6:50 • 数据结构和算法 • 阅读 59

写操作

write1：WAL

把操作同步到磁盘中WAL做备份（追加写、性能极高）

write2：Memtable

完成WAL后将(k,v)数据写入内存中的Memtable，Memtable的数据结构一般是跳表或者红黑树

内存内采用这种数据结构一方面支持内存内高速增删改查（时间复杂度O(logM)），另一方面可以保持有序，为写入磁盘中的SSTable打基础

write3：Immutable Memtable

Memtable存储的元素达到一定数量后，就会把它拷贝一份出来成为Immutable Memtable （不可变的Memtable）并且不能对其修改了，新增的数据都写入新的Memtable，这么做的好处是当需要将Memtable转化为Immutable Memtable时无需暂停工作，至于为什么要拷贝一个Immutable Memtable ，这主要是为了后续落盘时做准备

write4：Minor Compaction

内存中的数据不可能无线的扩张下去，需要把内存里面Immutable Memtable 定期dump到到硬盘上的SSTable level 0层中，此步骤也称为Minor Compaction

SSTable的数据结构是LSM-Tree设计的精髓，他一方面可以保持有序，一方面又能利用磁盘追加写的高性能

SSTable的数据结构为两部分，前半部分是key与value成对的数据连续存储，这部分数据的key是有序的，后半部分是前半部分的索引，值存储的是key所对应的offset，也是有序的，每次打开这个SSTable需要把索引加载到内存并利用二分搜索可以很快查找出要访问的key的值

dump的过程中每个Immutable Memtable会对应一个SSTable的segment且不会对多个Immutable Memtable进行合并，而是直接将Immutable Memtable中有序的跳表或者红黑树遍历并追加写入到segment，这个过程速度很快。由于不会合并level 0层中的SSTable可能会出现相同的key。

write5、write6：Major Compaction merge

当level 0中的segment越来越多，查询需要遍历的segment也就会越来越多，并且随着时间的推移，重复的key也会越来越多，在后面的步骤就需要对level 0层的segment进行合并merge

合并的过程中是吧多个有序的segment进行归并合并，所以性能不会很差，多个老的segment会合并成一个更长的同样有序的segment并设置到下一层

每一层的segment的数量和大小都会有限制，每当超出限制后，就会做合并操作

虽然定期合并可以有效的清除无效数据，缩短读取路径提升查询效率，提高磁盘利用空间。但Compaction操作是非常消耗CPU和磁盘IO的，尤其是在业务高峰期，如果发生了Major Compaction，则会降低整个系统的吞吐量，这也是一些NoSQL数据库，比如Hbase里面常常会禁用Major Compaction，并在凌晨业务低峰期进行合并的原因。

修改流程

write1：WAL

write2：找到key直接修改或新增key

write3：Immutable Memtable

write4：Minor Compaction

write5、write6…：较新的key（有序可以识别）会替代较老的key

删除流程

write1：WAL

write2：找到key设置状态为tombstone或新增key设置状态为tombstone

write3：Immutable Memtable

write4：Minor Compaction

write5、write6…：因为不确定下层是否有被删除的key，到最后一层merge时才真正删除

读操作

一、按照Memtable（内存）、Immutable Memtable（内存）、level 0 segments（磁盘）、level 1 segments（磁盘）、level 1 segments（磁盘）的顺序查询

二、每层先查新生成的segment

三、每个segment从后向前查

为什么LSM不直接顺序写入磁盘，而是需要在内存中缓冲一下？

单条写的性能没有批量写快，很多中间件比如elasticsearch、kafka、mysql都有类似的内存缓冲设计

在磁盘缓冲的另一个好处是，针对新增的数据，可以直接查询返回，能够避免一定的IO操作

LSM-Tree和B+Tree的比较

LSM-Tree的优点是支持高吞吐的写O1，这个特点在分布式系统上更为看重

针对读取普通的LSM-Tree结构，读取是On的复杂度

在使用索引或者缓存优化后的也可以达到O(logN)的复杂度。

适用于写多读少

B+tree的优点是支持高效的读（稳定的O(logN)）

但是在大规模的写请求下（O(LogN)），效率会变得比较低，因为随着insert的操作，为了维护B+树结构，节点会不断的分裂和合并。操作磁盘的随机读写概率会变大，故导致性能降低。

适用于写少读多或写读平衡

Original: https://www.cnblogs.com/zxporz/p/16021373.html
Author: 乂墨EMO
Title: 一文搞懂LSM-Tree

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/583550/

转载文章受原作者版权保护。转载请注明原作者出处！

数据结构和算法

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

Splay P2042 [NOI2005] 维护数列

开坑！！！维护一个数列，要求支持考虑 (splay) 每个节点需要维护的信息。之后考虑，如果一个点有懒标记，节点存储的是懒标记操作之前的值，还是懒标记操作之后的值。本题的操作…

数据结构和算法 2023年6月12日
0066
「浙江理工大学ACM入队200题系列」问题 B: 零基础学C/C++12——求平均值

本题是浙江理工大学ACM入队200题第二套中的B题我们先来看一下这题的题面. 由于是比较靠前的题目,这里插一句.各位新ACMer朋友们,请一定要养成仔细耐心看题的习惯,尤其是要利…

数据结构和算法 2023年6月12日
0088
组合数问题社论

组合数问题给 (n,p,k,r)，求 [\sum_{i=0}^{\infty}\dbinom{nk}{ik+r} ] 对 (p) 取模的结果 .(1 \leq n \leq 10^…

数据结构和算法 2023年6月7日
0082
P3966 [TJOI2013]单词

简要题意给出一个 (N) 行的字符串 (S)（保留换行符，除换行符外仅包含小写英文字母），每一行是一个单词，求每个单词在整个字符串的出现次数。 (1 \le N \le 200)…

数据结构和算法 2023年6月12日
0086
CSS SandBox

引言本篇文章主要介绍的是关于 CSS Sandbox的一些事情，为什么要介绍这个呢？在我们日常的开发中，样式问题其实一直是一个比较耗时的事情，一方面我们根据 UI 稿不断的去调整…

数据结构和算法 2023年6月12日
0098
变量命名函数命名方法 Naming cheatsheet

Naming things is hard. This sheet attempts to make it easier. Although these suggestions c…

数据结构和算法 2023年6月16日
00153
1046 Shortest Distance (20 分)

1. 题目 The task is really simple: given N exits on a highway which forms a simple cycle, yo…

数据结构和算法 2023年6月7日
0067
CF Edu124 E 题解

404. 抱歉，您访问的资源不存在。可能是网址有误，或者对应的内容被删除，或者处于私有状态。代码改变世界，联系邮箱 contact@cnblogs.com 园子的商业化努力-困…

数据结构和算法 2023年6月12日
0077
Rust双向链表

节点的结构指向节点的指针可能为空值，所以在最外层包裹一层 Option 一个节点可能存在被两个指针指向（前一个节点的 next 和后一个节点的 prev），指针需要用 Rc 包裹…

数据结构和算法 2023年6月7日
0095
Golang 函数方法接口的简单介绍

函数是基本的代码块，通常我们会将一个功能封装成一个函数，方便我们调用，同时避免代码臃肿复杂。 func TestFunc(a int, b string) (int, string…

数据结构和算法 2023年6月16日
0086
有序数组中找大于给定值的第一个元素,如果没有返回数组长度+1

实验证明,查找大于某个值的第一个数和查找某个值都可以用一样的二分法唯一的区别:找某个值,如果找到了返回mid,找不到返回-1; 找大于某个值的第一个数,无论找没找到都返回l…

数据结构和算法 2023年6月7日
00110
2022山东省队一轮集训

博客园：当前访问的博文已被密码保护请输入阅读密码: Original: https://www.cnblogs.com/winterfrost/p/2022sdptt1.htm…

数据结构和算法 2023年6月12日
0075
[LC646]最长数对链

给出 n 个数对。在每一个数对中，第一个数字总是比第二个数字小。现在，我们定义一种跟随关系，当且仅当 b < c 时，数对(c, d) 才可以跟在 (a, b) 后面。我…

数据结构和算法 2023年6月8日
0073
关于 RocketMQ 事务消息的正确打开方式 → 你学废了吗

开心一刻昨晚和一哥们一起吃夜宵，点了几瓶啤酒不一会天空下起了小雨，哥们突然道：糟了我：怎么了哥们：外面下雨了，我老婆还在等着我去接她他给了自己一巴掌，说道：真他妈不是个东…

数据结构和算法 2023年6月7日
00129
集合幂级数相关

CHANGE LOG NOI 大纲里没有把位运算卷积如 FMT，FWT，子集卷积等知识点单独列出，但高维前缀和（SOSDP）是应用比较广泛的重要算法。学习上述算法，首先要理解什么…

数据结构和算法 2023年6月12日
00102
算法竞赛网站推荐——OI WiKi

网址：https://oi-wiki.org/ 相关竞赛内容比较全，适合各类人群。 posted @2022-05-15 00:14 Johnson-Hugo 阅读(343 ) 评…

数据结构和算法 2023年6月7日
00121

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

一文搞懂LSM-Tree

write1：WAL

write2：Memtable

write3：Immutable Memtable

write4：Minor Compaction

write5、write6：Major Compaction merge

修改流程

删除流程

大家都在看