Разбор файла GenBank

Question

Разбор файла GenBank

По сути, файл GenBank состоит из записей генов (объявляемых 'gene', за которыми следует соответствующая запись 'CDS' (только по одной на ген), подобно двум, которые я здесь показываю ниже. Я хотел бы получить locus_tag против продукта в символе с разделителями табуляции файл с двумя столбцами. 'gene' и 'CDS' всегда предшествуют пробелами, а затем следуют пробелы. Если эту задачу легко выполнить с помощью уже имеющегося инструмента, пожалуйста, дайте мне знать.

Входной файл:

 gene            complement(8972..9094)
                 /locus_tag="HAPS_0004"
                 /db_xref="GeneID:7278619"
 CDS             complement(8972..9094)
                 /locus_tag="HAPS_0004"
                 /codon_start=1
                 /transl_table=11
                 /product="hypothetical protein"
                 /protein_id="YP_002474657.1"
                 /db_xref="GI:219870282"
                 /db_xref="GeneID:7278619"
                 /translation="MYYKALAHFLPTLSTMQNILSKSPLSLDFRLLFLAFIDKR"
 gene            9632..11416
                 /gene="frdA"
                 /locus_tag="HAPS_0005"
                 /db_xref="GeneID:7278620"
 CDS             9632..11416
                 /gene="frdA"
                 /locus_tag="HAPS_0005"
                 /note="part of four member fumarate reductase enzyme
                 complex FrdABCD which catalyzes the reduction of fumarate
                 to succinate during anaerobic respiration; FrdAB are the
                 catalytic subcomplex consisting of a flavoprotein subunit
                 and an iron-sulfur subunit, respectively; FrdCD are the
                 membrane components which interact with quinone and are
                 involved in electron transfer; the catalytic subunits are
                 similar to succinate dehydrogenase SdhAB"
                 /codon_start=1
                 /transl_table=11
                 /product="fumarate reductase flavoprotein subunit"
                 /protein_id="YP_002474658.1"
                 /db_xref="GI:219870283"
                 /db_xref="GeneID:7278620"
                 /translation="MQTVNVDVAIVGAGGGGLRAAIAAAEANPNLKIALISKVYPMRS
                 HTVAAEGGAAAVAKEEDSYDKHFHDTVAGGDWLCEQDVVEYFVEHSPVEMTQLERWGC
                 PWSRKADGDVNVRRFGGMKIERTWFAADKTGFHLLHTLFQTSIKYPQIIRFDEHFVVD
                 ILVDDGQVRGCVAMNMMEGTFVQINANAVVIATGGGCRAYRFNTNGGIVTGDGLSMAY
                 RHGVPLRDMEFVQYHPTGLPNTGILMTEGCRGEGGILVNKDGYRYLQDYGLGPETPVG
                 KPENKYMELGPRDKVSQAFWQEWRKGNTLKTAKGVDVVHLDLRHLGEKYLHERLPFIC
                 ELAQAYEGVDPAKAPIPVRPVVHYTMGGIEVDQHAETCIKGLFAVGECASSGLHGANR
                 LGSNSLAELVVFGKVAGEMAAKRAVEATARNQAVIDAQAKDVLERVYALARQEGEESW
                 SQIRNEMGDSMEEGCGIYRTQESMEKTVAKIAELKERYKRIKVKDSSSVFNTDLLYKI
                 ELGYILDVAQSISSSAVERKESRGAHQRLDYVERDDVNYLKHTLAFYNADGTPTIKYS
                 DVKITKSQPAKRVYGAEAEAQEAAAKKE"

Желаемый результат (locus_tag против продукта в двух столбцах с разделителями табуляции):

HAPS_0004 hypothetical protein
HAPS_0005 fumarate reductase flavoprotein subunit

Фактически, иметь этот вывод было бы идеально, одна строка для каждого гена (показана только для одного гена):

 locus_tag="HAPS_0004" db_xref="GeneID:7278619" complement(8972..9094) codon_start=1 transl_table=11 product="hypothetical protein" protein_id="YP_002474657.1" db_xref="GI:219870282" db_xref="GeneID:7278619" translation="MYYKALAHFLPTLSTMQNILSKSPLSLDFRLLFLAFIDKR"

1

perl awk biopython bioperl

Источник

user2604088 19 фев '14 в 18:15

1 ответ

Решение

Другие вопросы по тегам perl awk biopython bioperl

user223226 19 фев '14 в 18:34 2014-02-19 18:34 · Accepted Answer · 2014-02-19 18:34

perl -nE'
  BEGIN{ ($/, $") = ("CDS", "\t") }
  say "@r[0,1]" if @r= m!/(?:locus_tag|product)="(.+?)"!g and @r>1
' file

выход

HAPS_0004       hypothetical protein
HAPS_0005       fumarate reductase flavoprotein subunit

3

Источник

user223226 19 фев '14 в 18:34