Самая длинная общая палиндромная подпоследовательность

Question

Самая длинная общая палиндромная подпоследовательность

Есть ли эффективный алгоритм, который считает длину самой длинной общей палиндромной подпоследовательности двух заданных строк?

например:

Строка 1. afbcdfca

Строка 2. bcadfcgyfka

LCPS равен 5, а строка LCPS равна afcfa,

6

string algorithm lcs

Источник

user1067326 04 сен '12 в 19:54

3 ответа

Решение

Вот мой подробный пошаговый прохождение, так как это довольно часто, и большую часть времени люди объясняют часть динамического программирования на 70% и останавливаются на кровавых деталях.

1) Оптимальная субструктура: пусть X[0..n-1] быть входной последовательностью длины n и L(0, n-1) длина самой длинной палиндромной подпоследовательности X[0..n-1].

Если последний и первый символы X совпадают, то L(0, n-1) = L(1, n-2) + 2, подожди почему, что если 2-ой и 2-ой и последний символы не совпадают, последние и первые одинаковые символы будут бесполезны. Нет, эта "подпоследовательность" не должна быть непрерывной.

/* Driver program to test above functions */
int main()
{
    char seq[] = "panamamanap";
    int n = strlen(seq);
    printf ("The lnegth of the LPS is %d", lps(seq, 0, n-1));
    getchar();
    return 0;
}

int lps(char *seq, int i, int j)
{   
    // Base Case 1: If there is only 1 character   
    if (i == j)     
        return 1;    

    // Base Case 2: If there are only 2 characters and both are same   
    if (seq[i] == seq[j] && i + 1 == j)     
        return 2;    

    // If the first and last characters match   
    if (seq[i] == seq[j])      
        return lps (seq, i+1, j-1) + 2;    

    // If the first and last characters do not match   
    else return max( lps(seq, i, j-1), lps(seq, i+1, j) );
}

Учитывая вышеописанную реализацию, ниже приведено частичное дерево рекурсии для последовательности длиной 6 со всеми различными символами.

               L(0, 5)
             /        \ 
            /          \  
        L(1,5)          L(0,4)
       /    \            /    \
      /      \          /      \
  L(2,5)    L(1,4)  L(1,4)  L(0,3)

В приведенном выше дереве частичной рекурсии L(1, 4) решается дважды. Если мы нарисуем полное дерево рекурсии, то увидим, что есть много подзадач, которые решаются снова и снова. Как и другие типичные проблемы динамического программирования (DP), повторных вычислений тех же подзадач можно избежать, создав временный массив L[][] снизу вверх.

// Возвращает длину самой длинной палиндромной подпоследовательности в seq

int lps(char *str)
{
   int n = strlen(str);
   int i, j, cl;
   int L[n][n];  // Create a table to store results of subproblems


   // Strings of length 1 are palindrome of length 1
   for (i = 0; i < n; i++)
      L[i][i] = 1;

    for (cl=2; cl<=n; cl++)                              //again this is the length of chain we are considering
    {
        for (i=0; i<n-cl+1; i++)                         //start at i
        {
            j = i+cl-1;                                  //end at j
            if (str[i] == str[j] && cl == 2)             //if only 2 characters and they are the same then set L[i][j] = 2
               L[i][j] = 2;
            else if (str[i] == str[j])                   //if greater than length 2 and first and last characters match, add 2 to the calculated value of the center stripped of both ends
               L[i][j] = L[i+1][j-1] + 2;
            else
               L[i][j] = max(L[i][j-1], L[i+1][j]);      //if not match, then take max of 2 possibilities
        }
    }

    return L[0][n-1];
}

так что это похоже на нединамическое программирование логически, именно здесь мы сохраняем результат в массиве, чтобы не вычислять одно и то же снова и снова

2

Источник

user2716562 26 ноя '13 в 15:35

Это так же, как эта проблема: http://code.google.com/codejam/contest/1781488/dashboard

http://code.google.com/codejam/contest/1781488/dashboard

В приведенном ниже коде я даю вам метод cd (s) (который возвращает символьный символ, который сообщает вам, где находится следующий или предыдущий символ в строке, равный этому символу). Используйте это для реализации решения динамического программирования, для которого я также дал вам пример кода.

При динамическом программировании существуют только состояния len(s1)*len(s1)/2, поэтому возможен порядок (N^2).

Идея в том, чтобы либо взять символ из s1, либо не брать его. Если вы снимаете символ с s1, вы должны снять его спереди и сзади (как s1, так и s2). Если вы не берете его, вы продвигаетесь вперед 1. (это означает, что состояние s2 синхронизируется с состоянием s1, потому что вы всегда жадно воспринимаете внешнюю сторону обоих - так что вы беспокоитесь только о том, сколько состояний может иметь s1).

Этот код дает вам большую часть пути туда. cd1 (char dict 1) помогает вам найти следующий символ в s1, равный тому символу, на котором вы находитесь (и вперед, и назад).

В рекурсивном методе solve () вам нужно решить, какими должны быть start1, end1.. и т. Д. Добавляйте 2 к общему числу каждый раз, когда вы берете символ (если только start1 == end1 - затем добавьте 1)

s1 = "afbcdfca"
s2 = "bcadfcgyfka"

def cd(s):
    """returns dictionary d where d[i] = j where j is the next occurrence of character i"""
    char_dict = {}
    last_pos = {}
    for i, char in enumerate(s):
        if char in char_dict:
            _, forward, backward = char_dict[char]
            pos = last_pos[char]
            forward[pos] = i
            backward[i] = pos
            last_pos[char] = i
        else:
            first, forward, backward = i, {}, {}
            char_dict[char] = (first, forward, backward)
            last_pos[char] = i
    return char_dict

print cd(s1)
"""{'a': ({0: 7}, {7: 0}), 'c': ({3: 6}, {6: 3}), 'b': ({}, {}), 'd': ({}, {}), 'f': ({1: 5}, {5: 1})}"""

cd1, cd2 = cd(s1), cd(s2)

cache = {}
def solve(start1, end1, start2, end2):
    state = (start1, end1)
    answer = cache.get(state, None)
    if answer:
        return answer

    if start1 < end1:
        return 0
    c1s, c1e = s1[start1], s1[end1]
    c2s, c2e = s2[start2], s2[end2]

    #if any of c1s, c1e, c2s, c2e are equal and you don't take, you must
    #skip over those characters too:
    dont_take_end1 = solve(start1, end1 - 1, start2, end2)

    do_take_end1 = 2
    if do_take_end1:
        end1_char = s1[end1]
        #start1 = next character along from start1 that equals end1_char
        #end1 = next char before end1 that equals end1_char
        #end2 = next char before end2 that..
        #start2 = next char after .. that ..
        do_take_end1 += solve(start1, end1, start2, end2)


    answer = cache[state] = max(dont_take_end1, do_take_end1)
    return answer

print solve(0, len(s1), 0, len(s2))

1

Источник

user632088 05 сен '12 в 01:20

Другие вопросы по тегам string algorithm lcs

user1060350 04 сен '12 в 20:11 2012-09-04 20:11 · Accepted Answer · 2012-09-04 20:11

Да.

Просто используйте алгоритм для LCS для более чем двух последовательностей.

Если я не ошибаюсь, то

 LCS( afbcdfca, acfdcbfa, bcadfcgyfka, akfygcfdacb) = afcfa

Это зависит от вас, чтобы выяснить строки № 2 и № 4.

Обновление: нет, вот контрпример: LCS( aba, aba, bab, bab) = ab, ba. LCS не гарантирует, что подпоследовательность будет палиндромом, вам, вероятно, нужно добавить это ограничение. В любом случае, рекуррентное уравнение для LCS является хорошей отправной точкой.

Если вы реализуете LCS в стиле генератора, чтобы он генерировал все LCS длины n, затем n-1, n-2 и т. Д., То вы должны быть в состоянии достаточно эффективно вычислять самый длинный общий элемент в LCS-gen(string1, обратная строка1), LCS-gen(строка2, обратная строка2). Но я еще не проверял, существует ли высокоэффективный LCS-gen.