字符串匹配算法

字符串匹配就是在主串 $A$ 中查找子串 $B$ 。例如在 $\text{ abcabc}$ 中查找 $\text{bca}$ 是否存在。子串的长度 $≤$ 主串长度

比较容易实现的字符串匹配算法：

暴力 $O(mn)$
字符串哈希 $O(m+n)$
KMP算法 $O(m+n)$

算法一：暴力

思路很简单：

让子串从第一个字符开始，与主串的每一个字符匹配，如果当前字符匹配上，则继续匹配下一个字符，如果匹配到子串的最后一个字符都相同，那就说明子串在主串中出现了。

例如：

主串	a	b	c	a	b	c
子串	b	c	a

主串	a	b	c	a	b	c
子串		b	c	a

主串	a	b	c	a	b	c
子串			b	c	a

主串	a	b	c	a	b	c
子串				b	c	a

首先，我们知道了暴力匹配算法，但其实在暴力匹配的过程中，我们做了很多不必要的操作。比如在字符串 $\text{ABABABCAA}$ 中查找子串 $\text{ABABC}$ ，如果用暴力做法，我们在第一遍匹配的时候，会发现子串的最后一个字母 $\text{C}$ 与主串的字母 $\text{A}$ 不相同，然后子串又从第一位，主串从第二位开始匹配。但其实在这个过程中，我们已经匹配上了 $\text{ABAB}$ ，下一次匹配只需要从主串的第五位，子串的第三位开始匹配。像这样：

主串	A	B	A	B	A	B	C	A	A
子串	A	B	A	B	C

主串	A	B	A	B	A	B	C	A	A
子串			A	B	A	B	C

我们为什么可以这样做呢？

因为在第一次匹配的时候，我们发现已经匹配上的 $\text{ABAB}$ 前后缀是有公共部分 $\text{AB}$ 的。

这里为我们提供了一个思路，如果可以知道每次匹配到不相同，我们的子串应该移动到哪个位置再继续匹配，那可以大大加快匹配的速度。这里我们发现，主串的指针其实不需要回退，只要子串的指针移动到正确的位置即可。

那我们的子串应该移动到哪个位置呢？

这里引入一个 $\text{next}$ 数组， ${next[j]}$ 代表 $j$ 指针应该移动到的下标。

先不说 $\text{next}$ 数组是怎么得到的，来看一个例子：

字符串	A	B	A	B	C
下标	1	2	3	4	5
$\text{next}$ 数组	0	0	1	2	0

对照这个表，再进行一次匹配：

主串	A	B	A	B	A
指针					$\text{i}$
子串	A	B	A	B	C
指针				$\text{j}$	$\text{j+1}$

我们发现在指针 $i$ 和 $j+1$ 的位置的字符不匹配，所以让 $j$ 变成 ${next[j]}$ 的值，也就是 $2$ ，然后继续进行匹配：

主串	A	B	A	B	C
指针			$\text{i}$
子串	A	B	A	B	C
指针		$\text{j}$	$\text{j+1}$

注：我们这里每次比较的是主串的 $i$ 指向的字符和子串 $j+1$ 指向的字符。

匹配的代码可以这样实现：

//s是主串 p是子串
for (int i=1,j=0;i<=n;i++)
{
    while (j && s[i] != p[j+1]) j = ne[j]; //如果不匹配，j一直后退到能匹配 或者一直退到起点 j=0
    if (s[i] == p[j+1]) j++;
    if (j == m) //这里是匹配成功了，如果要继续匹配就让 j = ne[j] 继续匹配
    {
        j = ne[j];
    }
}

$\text{next}$ 数组的求法比较难理解，不过多介绍。这里我们认为求 $\text{next}$ 数组的过程，是子串自己与自己匹配的过程。

//ne[1] = 0
for (int i=2,j=0;i<=n;i++)
{
    while (j && p[i] != p[j+1]) j = ne[j];
    if (p[i] == p[j+1]) j++;
    ne[i] = j; //记录下next数组
}

例题：

KMP字符串

字符串匹配算法基础

字符串匹配算法

算法一：暴力

算法二：字符串哈希

算法三： $\text{KMP}$

评论

字符串匹配算法

算法一： 暴力

算法二：字符串哈希

算法三：KMP\text{KMP}KMP

评论

算法一：暴力

算法三： $\text{KMP}$