Время выполнения алгоритма KMP и построения таблицы LPS

Недавно я наткнулся на алгоритм KMP и потратил много времени, пытаясь понять, почему он работает. Хотя сейчас я понимаю основные функциональные возможности, я просто не могу понять вычисления во время выполнения.

Я взял приведенный ниже код с сайта geeksForGeeks: https://www.geeksforgeeks.org/kmp-algorithm-for-pattern-searching/

Этот сайт утверждает, что если размер текста равен O(n), а размер шаблона равен O (м), то KMP вычисляет совпадение за максимальное время O(n). В нем также говорится, что массив LPS может быть вычислен за время O(m).

// C++ program for implementation of KMP pattern searching 
// algorithm 
#include <bits/stdc++.h> 

void computeLPSArray(char* pat, int M, int* lps); 

// Prints occurrences of txt[] in pat[] 
void KMPSearch(char* pat, char* txt) 
{ 
    int M = strlen(pat); 
    int N = strlen(txt); 

    // create lps[] that will hold the longest prefix suffix 
    // values for pattern 
    int lps[M]; 

    // Preprocess the pattern (calculate lps[] array) 
    computeLPSArray(pat, M, lps); 

    int i = 0; // index for txt[] 
    int j = 0; // index for pat[] 
    while (i < N) { 
        if (pat[j] == txt[i]) { 
            j++; 
            i++; 
        } 

        if (j == M) { 
            printf("Found pattern at index %d ", i - j); 
            j = lps[j - 1]; 
        } 

        // mismatch after j matches 
        else if (i < N && pat[j] != txt[i]) { 
            // Do not match lps[0..lps[j-1]] characters, 
            // they will match anyway 
            if (j != 0) 
                j = lps[j - 1]; 
            else
                i = i + 1; 
        } 
    } 
}

// Fills lps[] for given patttern pat[0..M-1] 
void computeLPSArray(char* pat, int M, int* lps) 
{ 
    // length of the previous longest prefix suffix 
    int len = 0; 

    lps[0] = 0; // lps[0] is always 0 

    // the loop calculates lps[i] for i = 1 to M-1 
    int i = 1; 
    while (i < M) { 
        if (pat[i] == pat[len]) { 
            len++; 
            lps[i] = len; 
            i++; 
        } 
        else // (pat[i] != pat[len]) 
        { 
            // This is tricky. Consider the example. 
            // AAACAAAA and i = 7. The idea is similar 
            // to search step. 
            if (len != 0) { 
                len = lps[len - 1]; 

                // Also, note that we do not increment 
                // i here 
            } 
            else // if (len == 0) 
            { 
                lps[i] = 0; 
                i++; 
            } 
        } 
    } 
} 

// Driver program to test above function 
int main() 
{ 
    char txt[] = "ABABDABACDABABCABAB"; 
    char pat[] = "ABABCABAB"; 
    KMPSearch(pat, txt); 
    return 0; 
}

Я действительно смущен, почему это так.

Для вычисления LPS рассмотрим: aaaaacaaac В этом случае, когда мы пытаемся вычислить LPS для первого c, мы будем продолжать возвращаться, пока не достигнем LPS[0], который равен 0, и остановимся. Таким образом, по сути, мы будем путешествовать по крайней мере по длине шаблона до этой точки. Если это происходит несколько раз, как сложность времени будет O(m)?

У меня похожая путаница во время выполнения KMP, чтобы быть O(n).

Я прочитал другие темы в переполнении стека перед публикацией, а также различные другие сайты по этой теме. Я все еще очень смущен. Я был бы очень признателен, если бы кто-нибудь мог помочь мне понять лучшие и худшие варианты сценариев для этих алгоритмов и то, как их время выполнения вычисляется на некоторых примерах. Опять же, пожалуйста, не предлагайте мне Google это, я сделал это, провел целую неделю, пытаясь понять, и потерпел неудачу.

1 ответ

Один из способов установить верхнюю границу времени выполнения для построения массива LPS - рассмотреть патологический случай - как мы можем максимизировать количество раз, которое мы должны выполнить len = lps[len - 1]? Рассмотрим следующую строку, игнорируя пробелы: x1 x2 x1x3 x1x2x1x4 x1x2x1x3x1x2x1x5 ...

Второй член нужно сравнить с первым, как если бы он заканчивался на 1, а не на 2, он соответствовал бы первому члену. Точно так же третий член нужно сравнить с первыми двумя терминами, как если бы он заканчивался 1 или 2 вместо 3, он соответствовал бы этим частичным терминам. И так далее.

В строке примера ясно, что только каждые 1/2^n символов могут соответствовать n раз, поэтому общее время выполнения будет m + m / 2 + m / 4 +..=2m=O(m), длина строки шаблона. Я подозреваю, что невозможно построить строку с худшим временем выполнения, чем строка в примере, и это, вероятно, можно формально доказать.

Другие вопросы по тегам