Редактирование справки по Perl-скрипту для запуска и остановки в определенных местах массива

Question

Редактирование справки по Perl-скрипту для запуска и остановки в определенных местах массива

Нужна помощь в устранении неполадок и редактировании. Это домашнее задание. Мой профессор поощряет использование форумов. У меня пока нет опыта работы с Perl Functions или Subs, поэтому, пожалуйста, ограничьте ответы до соответствующего уровня, чтобы я мог понять.

Цель сценария - прочитать строку ДНК (или файл из командной строки, который я добавлю позже), перевести ее в РНК, а затем вернуть значение белка в виде заглавных однобуквенных аминокислотных названий.

Функция скрипта:

Возьмите 3 символьных "кодона" из первого символа и дайте им односимвольный символ (заглавное однобуквенное название аминокислоты из хеш-таблицы)
Печать РНК Белки, которые являются строками, которые начинаются с AUG ("M") и заканчиваются UAG, UAA или UGA.
Если обнаружен пробел, запускается новая строка и процесс повторяется. Мы можем предположить, что разрывы являются кратными троек.

Основные проблемы, насколько я могу судить:

Я не знаю, где иметь цикл данных через хэш-таблицу. Я пытался разместить его до и после моего блока Foreach. Я также полностью удалил блок Foreach и попробовал "Пока" и "Если".
Блок Foreach, похоже, не обрабатывает весь массив @all_codons и останавливается только в AUG.
Очевидная и самая большая проблема заключается в том, что он ничего не возвращает. Где-то в пути значению $ next_codon присваивается значение "ложь". Я пытался комментировать каждую строку по частям - последняя строка, которая возвращала что-либо, была My $start, а оттуда все ложно.

Сценарий:

$^W = 1;
use strict;


my $dna_string = "CCCCAAATGCTGGGATTACAGGCGTGAGCCACCACGCCCGGCCACTTGGCATGAATTTAATTCCCGCCATAAACCTGTGAGATAGGTAATTCTGTTATATCCACTTTACAAATGAAGAGACTGAGGCAAAGAAAGATGATGTAACTTACGCAAAGC";

my %codon_codes = (
    "UUU" => "f", "UUC" => "f", "UUA" => "l", "UUG" => "l",
    "CUU" => "l", "CUC" => "l", "CUA" => "l", "CUG" => "l",
    "AUU" => "i", "AUC" => "i", "AUA" => "i", "AUG" => "m",
    "GUU" => "v", "GUC" => "v", "GUA" => "v", "GUG" => "v",
    "UCU" => "s", "UCC" => "s", "UCA" => "s", "UCG" => "s",
    "CCU" => "p", "CCC" => "p", "CCA" => "p", "CCG" => "p",
    "ACU" => "t", "ACC" => "t", "ACA" => "t", "ACG" => "t", 
    "GCU" => "a", "GCC" => "a", "GCA" => "a", "GCG" => "a",
    "UAU" => "y", "UAC" => "y", "UAA" => " ", "UAG" => " ",
    "CAU" => "h", "CAC" => "h", "CAA" => "q", "CAG" => "q",
    "AAU" => "n", "AAC" => "n", "AAA" => "k", "AAG" => "k"
 );

my $rna_string = $dna_string;
$rna_string =~ tr/[tT]/U/;

my @all_codons = ($rna_string =~ m/.../g);

foreach my $next_codon(@all_codons){

    while ($next_codon =~ /AUG/gi){

        my $start = pos ($next_codon) -3;

        last unless $next_codon =~ /U(AA|GA|AG)/gi;

        my $stop = pos($next_codon);

        my $genelen = $stop - $start;

        my $gene = substr ($next_codon, $start, $genelen);

        print "\n" . join($start+1, $stop, $gene,) . "\n";
    }
}

3

perl hashmap bioinformatics perl-data-structures bioperl

Источник

user475364 09 ноя '10 в 06:58

1 ответ

Решение

Другие вопросы по тегам perl hashmap bioinformatics perl-data-structures bioperl

user206659 09 ноя '10 в 07:57 2010-11-09 07:57 · Accepted Answer · 2010-11-09 07:57

Я не понимаю часть "цикл данных через хеш-таблицу".

Мне кажется, что для каждого кодона необходимо проверить, является ли он стартовым, стоп-кодоном, пробелом или аминокислотой. И вам нужно каким-то образом сохранить состояние (ниже как $in_gene).

my $in_gene = 0;

foreach my $next_codon(@all_codons){
    if ($next_codon eq 'AUG') {
        $in_gene = 1;
    }
    elsif ($next_codon =~ m/U(AA|GA|AG)/) {
        $in_gene = 0;
    }
    elsif ($in_gene == 1) {
        my $aminoacid = $codon_codes{$next_codon};
        print "\n" and next unless defined $aminoacid;
        print $aminoacid;
    }
}

Это печатает

l
lqak
l
q
k