KMP算法详解

2023年6月12日下午2:54 • 数据结构和算法 • 阅读 117

-1.前置约定

如非特殊说明，以下文字中(T)代表主串，(P)代表模式串，(m)代表主串长度，(n)代表模式串长度

真前缀 一个字符串除了它本身之外的前缀。例如， moo 是 moon 的真前缀， moon 却不是。 真后缀同理。

“border” 如果字符串 (a) 既是 (b) 的真前缀，又是 (b) 的真后缀，那么我们说 (a) 是 (b) 的 border。

0.什么是KMP？

KMP算法是一种改进的字符串匹配算法，由D.E.Knuth，J.H.Morris和V.R.Pratt提出的，因此人们称它为克努特—莫里斯—普拉特操作（简称KMP算法）。KMP算法的核心是利用匹配失败后的信息，尽量减少模式串与主串的匹配次数以达到快速匹配的目的。具体实现就是通过一个next()函数实现，函数本身包含了模式串的局部匹配信息。KMP算法的时间复杂度(O(m+n))。——摘自百度百科

简而言之，它可以在 (O(m+n)) 的时间复杂度之内在主串 (T) 中找到所有模式串 (P)，非常优秀。

1.正文

1.1.求 (next) 数组

KMP算法需要求一个”(next)数组”， (next_i) =(P_{1…i}) 最大的border的长度

注意到border有一些很好的性质，例如：

传递性。如果(a) 是(b) 的 border，(b) 是(c) 的 border，那么(a) 是(c) 的 border。
如果(a) 是(s) 的 border,那么比(a) 小的最大(s) 的 border 一定是(a) 的最大 border。 换句话说，把(s) 的所有 border 从大到小排序，那么在后面的 border 也是在前面的 border 的 border。

根据上面两个性质可以推出这样一个有趣的结论： 如果知道(next_{1…i-1}) ，就可以找出字符串的所有 border ！

所以 (next_i) 、 (next_{next_i}) 、 (next_{next_{next_i}}) ……是所有字符串 (P_{1..i}) 的 border 的长度。老套娃了

于是我们可以根据这个性质递推出 (next) 数组。

根据 (next) 数组的定义，显然有 (next_1=0)。

假设 (next_1) 到 (next_{i-1})都已经被求出来了。如果当前要求 (next_i) ，我们只需让 (j) 依次等于 (next_{i-1}) 、 (next_{next_{i-1}}) 、 (next_{next_{next_{i-1}}})…… （(P_{1…i-1}) 所有 border 的长度），因为 border 的定义， (P_{1…j}==P_{i-j…i-1}) 总是成立，所以如果 (P_{j+1}==P_{i}) ，就说明 (P_{1…j+1}==P_{i-j…i}) ，即找到了 (P_{1..i}) 的一个 border。

不难看出，最先找到的 border 一定是最大的 border ,即 (next_i)。

于是可以写出求 (next) 数组的代码：

next[1]=0;
for(int i=2;i0&&p[i]!=p[j+1]){
        j=next[j];
    }//让j依次等于P[1...i-1]的所有border
    if(p[i]==p[j+1]){
        j++;
    }
    next[i]=j;
}

1.2.匹配

先来看看暴力算法的思路。

然而我们可以发现，它的时间复杂度甚至达到了(O(mn))。在暴力算法中，如果发生了失配（即匹配到半路发现有一个字符不相等），只能把模板串往后移1位再重新开始匹配。这样做效率实在太低了，有什么办法优化吗？

当然有！

如果发生下列情况：

可以直接把模板串后移 (j-next_j) 位，即令 (j) 赋值为 (next_j)。如果仍然失配，就重复以上过程，直到匹配成功为止，然后进行下一轮匹配。

这个东西跟求 (next) 数组思想类似，代码肯定也类似啦233

代码：

for(int i=1,j=0;i0&&t[i]!=p[j+1]){
        j=next[j];
    }
    if(t[i]==p[j+1]){
        j++;
    }
    if(j==n){//匹配成功！OHHHHHHHHHHHHHH！
        cout<

1.3 时间复杂度

匹配过程的时间复杂度乍一看很高，因为它有两重循环。实际上，内层循环的执行次数一定不超过 (m) 次，因为每一次内层循环至少会让 (j) 减少 (1)，每一次外层循环至多会让 (j) 加上 (1)，所以内层循环执行次数一定不超过外层循环，即 (m) 次。所以，不难看出整个匹配过程的时间复杂度为 (\Theta(m)) 。

求 (next) 数组过程好像不能通过以上方法分析，然而它还有一种等价写法，也是我常用的写法：

next[1]=0;
for(int i=2,j=0;i0&&p[i]!=p[j+1]){
        j=next[j];
    }//让j依次等于P[1...i-1]的所有border
    if(p[i]==p[j+1]){
        j++;
    }
    next[i]=j;
}

这样，也不难看出求 (next) 数组过程的时间复杂度为 (\Theta(n))

综上，整个 KMP 算法的时间复杂度为 (\Theta(m+n))，非常快。

2.总结

KMP 算法的精髓在于废旧信息的重新利用和发掘问题性质，同时这也是一个非常烧脑的算法，非常巧妙。

再附赠一份能通过模板题的代码：

#include
#include
using namespace std;
#define MAXN 1000000
int nxt[MAXN + 5], n, m;
char t[MAXN + 5], p[MAXN + 5];
int main() {
    ios::sync_with_stdio(false);
    cin >> t + 1 >> p + 1;
    m = strlen(t + 1);
    n = strlen(p + 1);
    nxt[1] = 0;
    for (int i = 2; i  0 && p[i] != p[j + 1]) {
            j = nxt[j];
        }
        if (p[i] == p[j + 1]) {
            j++;
        }
        nxt[i] = j;
    }
    for (int i = 1, j = 0; i  0 && t[i] != p[j + 1]) {
            j = nxt[j];
        }
        if (t[i] == p[j + 1]) {
            j++;
        }
        if (j == n) {
            cout << i - j + 1 << endl;
            j = nxt[j];
        }
    }
    for (int i = 1; i

所以，都看到这里了，能给我点一个赞吗（逃

Original: https://www.cnblogs.com/ztxcsl/p/14856343.html
Author: ztxcsl
Title: KMP算法详解

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/604500/

转载文章受原作者版权保护。转载请注明原作者出处！

数据结构和算法

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

React Hooks 指北

前言这篇文章旨在总结 React Hooks 的使用技巧以及在使用过程中需要注意的问题，其中会附加一些问题产生的原因以及解决方式。但是请注意，文章中所给出的解决方式并不一定完全适…

数据结构和算法 2023年6月12日
00114
NOI2022 题解合集

视 (n, q, C_l, C_m) 同级。对于操作 1 和 2，直接用栈维护。但对于操作 4，栈不支持快速合并，因此考虑双端队列启发式合并，则该部分总复杂度 (\mathca…

数据结构和算法 2023年6月12日
0097
入门学习1.1.1——K进制小数对金融工作中的影响——（程序设计与算法（一）C语言程序设计（mooc郭炜）课程学习）

2.1思考点 2.1.1 K进制小数对金融工作中的影响本课中提到，虽然整数格式都可以通过2进制来表示，但是小数是通过2的负幂相加的形式来形成的。这就造成，在内存有限的情况下，一…

数据结构和算法 2023年6月8日
00103
《数据结构》（C语言版）学习笔记——第2章线性表（顺序表的基本操作）

2.4.1 线性表的顺序存储表示 //定义顺序表 typedef struct { Elempty *elem;//存储空间的基地址 int length;//当前长度 }*SqL…

数据结构和算法 2023年6月7日
0094
【JS每日一题】Array.reduce函数

题目题目来源于前端面试题宝典 [[0, 1], [2, 3]].reduce( (acc, cur) => { return acc.concat(cur) }, [1, …

数据结构和算法 2023年6月8日
0092
【POJ 3255】Roadblocks（次短路 Dijkstra算法）

直接翻译了 Descriptions Bessie搬到了一个新的农场，有时候他会回去看他的老朋友。但是他不想很快的回去，他喜欢欣赏沿途的风景，所以他会选择次短路，因为她知道一定有一…

数据结构和算法 2023年6月14日
00118
基础算法学习以及$STL$的使用

404. 抱歉，您访问的资源不存在。可能是网址有误，或者对应的内容被删除，或者处于私有状态。代码改变世界，联系邮箱 contact@cnblogs.com 园子的商业化努力-困…

数据结构和算法 2023年6月8日
00134
算法：队列的最大值

问题请定义一个队列并实现函数 max_value 得到队列里的最大值，要求函数max_value、push_back 和 pop_front 的均摊时间复杂度都是O(1)。若队…

数据结构和算法 2023年6月12日
00102
Molecule实现数栈至简前端开发新体验

Keep It Simple, Stupid. 这是开发人耳熟能详的 KISS 原则，也像是一句有调侃意味的善意提醒，提醒每个前端人，简洁易懂的用户体验和删繁就简的搭建逻辑就是前端…

数据结构和算法 2023年6月12日
0090
额外空间复杂度O(1) 的二叉树遍历 → Morris Traversal，你造吗？

开心一刻一天，有个粉丝遇到感情方面的问题，找我出出主意粉丝：我女朋友吧，就是先天有点病，听不到人说话，也说不了话，现在我家里人又给我介绍了一个，我该怎么办我：这个问题很难去解…

数据结构和算法 2023年6月7日
00157
Divan and bitwise operations

这是一道比较综合的数学题目，光是吧题目看懂就花了我好一会儿时间，先看看题目吧：题目分析：对于m段给定连续段的或值，要求出n个数的序列子序列的异或值之和；题解：这道题，我们先不…

数据结构和算法 2023年6月7日
0099
「学习笔记」倍增思想与lca

ST表算法预处理查询关于 log2 Code 预处理查询例题 P2880 P2048 lca 树上 RMQ 前置知识：欧拉序列算法 Code 离线 Tarjan 算法…

数据结构和算法 2023年6月8日
00142
一文搞懂LSM-Tree

写操作 write1：WAL 把操作同步到磁盘中WAL做备份（追加写、性能极高） write2：Memtable 完成WAL后将(k,v)数据写入内存中的Memtable，Memt…

数据结构和算法 2023年6月7日
0072
leecode每日刷题1

题目描述示例 1： 输入：nums = [-4,-1,0,3,10] 输&#x51…

数据结构和算法 2023年6月7日
00108
最长公共子序列

题目链接 P1439LIS(Longest Increasing Subsequence)(最长递增子序列)LCS(Longest Common Subsequence)(最长公共…

数据结构和算法 2023年6月12日
0092
做题记录22.3.31 洛谷P2250

洛谷P2250记录由于CSDN新增了字数限制，即日起本人开始转战博客园题目链接这题我原本的想法是：按先x后y的升序排序，随后对于任意一个i，查找和i+1相交的部分，并在这部分…

数据结构和算法 2023年6月12日
00122

2024 年 6 月
一	二	三	四	五	六	日
					1	2
3	4	5	6	7	8	9
10	11	12	13	14	15	16
17	18	19	20	21	22	23
24	25	26	27	28	29	30

KMP算法详解

1.1.求 (next) 数组

1.2.匹配

1.3 时间复杂度

大家都在看