Perl Inline::C: нужны ли Inline_Stack_Vars и т. Д., Чтобы избежать утечек памяти (сопоставление символов биопоследовательности)

Мой вопрос (и) относится к работе встроенного кода C: необходимо ли использовать встроенные функции стека (Inline_Stack_Vars) для передачи и вывода переменных, или в этом контексте уместно просто изменить переменную на месте?

Для отображения данных биопоследовательности мне нужно показать только различия между двумя выровненными строками; например, учитывая эти две строки:

    ATCAGAAA--GACATGGGCCAAAGATTAA-CAGTGGCCATTGACAGGA--
    --CCCCAACTGACAGGGGGCAAAGATTAA-CAGTGGCCATTG---GGA--

Я хочу получить это (соответствующие символы во второй строке заменены на '.

    --.CCC..CT....G...G..........-............---...--

У меня есть много последовательностей (миллионы чтения Illumina), поэтому я обратился к inline::c для сопоставления символов. Следующий встроенный код, кажется, работает очень хорошо (заменяя второй аргумент на функцию add_matchchars):

#!/usr/bin/perl
use Inline C;

my($seq1,$seq2) = qw/ ATCAGAAA--GACATGGGCCAAAGATTAA-CAGTGGCCATTGACAGGA--
                      --CCCCAACTGACAGGGGGCAAAGATTAA-CAGTGGCCATTG---GGA-- /;

print $seq1,"\n";
print $seq2,"\n";
add_matchchars($seq1,$seq2);
print $seq2,"\n";

__END__

__C__

void add_matchchars(char *seq1, char *seq2) {
    int seq1char;
    int seq2char;
    while(seq1char = *seq1++ , seq2char = *seq2++) {
        if (seq1char == seq2char) {
            *seq2--;
            if (seq1char != '-') {
                *seq2 = '.';
            }
            *seq2++;
        }
        //printf("%c-%c\n",seq1char,seq2char);
    } 
 // printf("%s\n%s\n",seq1,seq2);
}

Но 1) это достаточно эффективно (есть ли более умный / лучший способ)? и 2) будет ли утечка памяти?

1 ответ

Решение

Вы не должны полагаться на char * скаляра, который можно изменить, или даже быть исходным буфером скаляра. Вместо этого верните новую строку.

Inline_Stack_Vars макрос полезен только при работе с переменным числом аргументов или несколькими возвращаемыми значениями. Здесь тоже нет дела.

Ваш код в настоящее время не страдает от утечек памяти (вы не выделяете память внутри вашей функции C), но есть некоторые проблемы, в том числе. стиль, возможные ошибки (правильно) while(seq1char = *seq1++ , seq2char = *seq2++) в while((seq1char = *seq1++) && (seq2char = *seq2++)) и тот факт, что строки Perl могут содержать NUL внутри строки.

Я думаю, что в целом лучше, чтобы ваша функция C принимала скаляры напрямую. Грубо говоря:

SV *add_matchchars(SV *seq1_sv, SV *seq2_sv) {
    STRLEN len1, len2;
    char *seq1 = SvPVbyte(seq1_sv, len1);
    char *seq2 = SvPVbyte(seq2_sv, len2);
    STRLEN min_len = len1 < len2 ? len1 : len2;
    SV *seq3_sv = newSVpvn(seq2, min_len);
    char *seq3;
    STRLEN i;

    seq3 = SvPVX(seq3_sv);
    for (i = 0; i < min_len; ++i) {
        if (seq1[i] == seq2[i])
            seq3[i] = '.';
    }

    return seq3_sv;
}
Другие вопросы по тегам