Извлечение последовательностей ДНК из базы данных последовательностей белков?

У меня есть тысячи белковых последовательностей в FASTA и их номера доступа. Я хочу вернуться ко всей базе данных о дробовиках генома и получить все последовательности ДНК, которые кодируют белок, идентичный одному в моем списке исходных последовательностей.

Я попытался запустить tBlastn с <10 ​​результатами для каждой последовательности, 1 для запроса и электронным значением ниже 1e-100 или с нулевым электронным значением, и я не получаю никаких результатов. Я хотел бы автоматизировать весь этот процесс.

Это можно сделать, запустив blast из командной строки и пакетный скрипт?

2 ответа

Вы можете найти эту ссылку полезной:

https://www.biostars.org/p/5403/

Там был задан похожий вопрос, и были опубликованы некоторые разумные решения.

Вы должны получить хотя бы один результат: тот, который кодирует исходный белок. Другие, если таковые имеются, будут псевдогенами, если я последую за тобой.

В любом случае, немного программирования может помочь, посмотрите Biopython. Bioperl или Bioruby должны иметь схожие характеристики. В частности, вы можете BLAST, используя Biopython

Другие вопросы по тегам