Запрос Genbank (пакет seqinr): поиск в описании последовательности

Я использую функцию query() пакета seqinr загрузить последовательности ДНК миоглобина из Genbank. Например:

query("myoglobins","K=myoglobin AND SP=Turdus merula")

К сожалению, для многих видов, которые я ищу, я не получаю никакой последовательности (или для этого вида, только очень короткую), хотя я нахожу последовательности, когда я ищу вручную на веб-сайте. Это связано с поиском "миоглобина" только по ключевым словам, хотя часто там нет записей. Часто тип белка указывается только в названии ("определение" в Genbank) - но я не знаю, как это искать. Страница справки на query() Похоже, в деталях не предлагается никакой опции, "общий поиск" без всякого "K=" не работает, и я ничего не нашел через поиск в Google.

Буду рад любым ссылкам, объяснениям и помощи. Спасибо!:)

1 ответ

Существует полное руководство по пакету seqinr, которое более подробно описывает язык запросов в главе 5 (доступно по адресу http://seqinr.r-forge.r-project.org/seqinr_2_0-1.pdf). Я пытался сделать аналогичный запрос, и описание многих генов / компакт-дисков пустое, поэтому они не отображаются при поиске с использованием опции k=. Одной из альтернатив может быть поиск только одного организма, затем сопоставление имен генов в отдельных аннотациях и извлечение регистрационных номеров, которые затем можно использовать для повторного запроса базы данных о ваших последовательностях.

Это вытянет аннотацию для первого гена:

choosebank("emblTP")
 query("ACexample", "sp=Turdus merula")
 getName(ACexample$req[[1]])
 annotations <- getAnnot(ACexample$req[[1]])
 cat(annotations, sep = "\n")

Я думаю, что это был бы довольно трудоемкий способ решения проблемы, но, похоже, нет эффективного способа прямого поиска аннотаций. Я был бы заинтересован в любых решениях, которые вы могли бы придумать.

Другие вопросы по тегам