Как проанализировать файл Uniprot Dat для получения GO в Python?
Я пробовал BioPython SeqIO и другие парсеры, но не смог найти хорошего инструмента для разбора файлов DAT.
https://omics.pnl.gov/software/uniprot-dat-file-parser
Я попробовал это, но они не предоставляют никаких аннотаций гена
http://biopython.org/wiki/SeqIO
В основном они говорят о приеме данных FASTA, а не файла DAT.
from Bio import SeqIO
for record in SeqIO.parse("Fasta/f002", "fasta"):
... print("%s %i" % (record.id, len(record)))
2 ответа
Это похоже на то, что называет Biopython "swiss"
формат, формат простого текста, используемый в SwissProt до того, как он называется UniProt. Пытаться:
from Bio import SeqIO
for record in SeqIO.parse("example.dat", "swiss"):
print("%s %i" % (record.id, len(record)))
См. Также таблицу с форматами по адресу http://biopython.org/wiki/SeqIO
Дорогой Мухаммед Зеешан,
Вы можете использовать функции запросов библиотеки Python pyuniprot
чтобы получить последовательность (или многое другое)
установить (с помощью pip или git clone) и обновить. Узнайте, какой идентификатор таксономии подходит для ваших организмов. Пример здесь (человек, мышь, крыса). Не делайте полное обновление для всех организмов (занимает очень много времени).
pyuniprot.update(taxids=[9606, 10090, 10116])
Используйте следующий код Python для вашей проблемы:
Предполагая, что 1433E_HUMAN и A4_HUMAN представляют интересующий идентификатор:
Код Python:
import pyuniprot
query = pyuniprot.query()
entries = query.entry(name=('1433E_HUMAN', 'A4_HUMAN'))
seqs = [x.sequence.sequence for x in entries]