Как проанализировать файл Uniprot Dat для получения GO в Python?

Question

Как проанализировать файл Uniprot Dat для получения GO в Python?

Я пробовал BioPython SeqIO и другие парсеры, но не смог найти хорошего инструмента для разбора файлов DAT.

https://omics.pnl.gov/software/uniprot-dat-file-parser

Я попробовал это, но они не предоставляют никаких аннотаций гена

http://biopython.org/wiki/SeqIO

В основном они говорят о приеме данных FASTA, а не файла DAT.

from Bio import SeqIO
   for record in SeqIO.parse("Fasta/f002", "fasta"):
...     print("%s %i" % (record.id, len(record)))

0

python parsing biopython bioservices

Источник

user5408918 31 июл '17 в 16:14

2 ответа

Другие вопросы по тегам python parsing biopython bioservices

user344850 01 авг '17 в 13:48 2017-08-01 13:48 · Answer 1 · 2017-08-01 13:48

Это похоже на то, что называет Biopython "swiss" формат, формат простого текста, используемый в SwissProt до того, как он называется UniProt. Пытаться:

from Bio import SeqIO
   for record in SeqIO.parse("example.dat", "swiss"):
       print("%s %i" % (record.id, len(record)))

См. Также таблицу с форматами по адресу http://biopython.org/wiki/SeqIO

user6594919 28 авг '17 в 16:30 2017-08-28 16:30 · Answer 2 · 2017-08-28 16:30

Дорогой Мухаммед Зеешан,

Вы можете использовать функции запросов библиотеки Python pyuniprot чтобы получить последовательность (или многое другое)

установить (с помощью pip или git clone) и обновить. Узнайте, какой идентификатор таксономии подходит для ваших организмов. Пример здесь (человек, мышь, крыса). Не делайте полное обновление для всех организмов (занимает очень много времени).

pyuniprot.update(taxids=[9606, 10090, 10116])

Используйте следующий код Python для вашей проблемы:

Предполагая, что 1433E_HUMAN и A4_HUMAN представляют интересующий идентификатор:

Код Python:

import pyuniprot
query = pyuniprot.query() 
entries = query.entry(name=('1433E_HUMAN', 'A4_HUMAN'))  
seqs = [x.sequence.sequence for x in entries]