Как проанализировать файл Uniprot Dat для получения GO в Python?

Я пробовал BioPython SeqIO и другие парсеры, но не смог найти хорошего инструмента для разбора файлов DAT.

https://omics.pnl.gov/software/uniprot-dat-file-parser

Я попробовал это, но они не предоставляют никаких аннотаций гена

http://biopython.org/wiki/SeqIO

В основном они говорят о приеме данных FASTA, а не файла DAT.

from Bio import SeqIO
   for record in SeqIO.parse("Fasta/f002", "fasta"):
...     print("%s %i" % (record.id, len(record)))

2 ответа

Это похоже на то, что называет Biopython "swiss" формат, формат простого текста, используемый в SwissProt до того, как он называется UniProt. Пытаться:

from Bio import SeqIO
   for record in SeqIO.parse("example.dat", "swiss"):
       print("%s %i" % (record.id, len(record)))

См. Также таблицу с форматами по адресу http://biopython.org/wiki/SeqIO

Дорогой Мухаммед Зеешан,

Вы можете использовать функции запросов библиотеки Python pyuniprot чтобы получить последовательность (или многое другое)

установить (с помощью pip или git clone) и обновить. Узнайте, какой идентификатор таксономии подходит для ваших организмов. Пример здесь (человек, мышь, крыса). Не делайте полное обновление для всех организмов (занимает очень много времени).

pyuniprot.update(taxids=[9606, 10090, 10116])

Используйте следующий код Python для вашей проблемы:

Предполагая, что 1433E_HUMAN и A4_HUMAN представляют интересующий идентификатор:

Код Python:

import pyuniprot
query = pyuniprot.query() 
entries = query.entry(name=('1433E_HUMAN', 'A4_HUMAN'))  
seqs = [x.sequence.sequence for x in entries]
Другие вопросы по тегам