Как я могу получить таксономические звания от таксонов?
Этот вопрос связан с: Как получить таксономические идентификаторы для царства, типа, класса, порядка, семейства, рода и вида из таксона?
Решение, данное там, работает, но я хотел бы иметь имена для каждого таксономического идентификатора для определенных рангов. Я нашел это на ete3, который может сделать работу:
names = ncbi.get_taxid_translator(lineage)
print [names[taxid] for taxid in lineage]
но не будучи программистом на Python, я не могу включить это в код, приведенный в ссылке выше. Вот что я попробовал:
import csv
from ete3 import NCBITaxa
ncbi = NCBITaxa()
def get_desired_ranks(taxid, desired_ranks):
lineage = ncbi.get_lineage(taxid)
print lineage
#[1, 131567, 2157, 28890, 183925, 2158, 2159, 2160, 2162, 1204725]
names = ncbi.get_taxid_translator(lineage)
print names
#{1: u'root', 2157: u'Archaea', 2158: u'Methanobacteriales', 2159: u'Methanobacteriaceae', 2160: u'Methanobacterium', 2162: u'Methanobacterium formicicum', 183925: u'Methanobacteria', 28890: u'Euryarchaeota', 131567: u'cellular organisms', 1204725: u'Methanobacterium formicicum DSM 3637'}
lineage2ranks = ncbi.get_rank(names)
print lineage2ranks
#{1: u'no rank', 2157: u'superkingdom', 2158: u'order', 2159: u'family', 2160: u'genus', 2162: u'species', 183925: u'class', 28890: u'phylum', 131567: u'no rank', 1204725: u'no rank'}
ranks2lineage = dict((rank,taxid) for (taxid, rank) in lineage2ranks.items())
print ranks2lineage
return{'{}_id'.format(rank): ranks2lineage.get(rank, '<not present>') for rank in desired_ranks}
def main(taxids, desired_ranks, path):
with open(path, 'w') as csvfile:
fieldnames = ['{}_id'.format(rank) for rank in desired_ranks]
writer = csv.DictWriter(csvfile, delimiter='\t', fieldnames=fieldnames)
writer.writeheader()
for taxid in taxids:
writer.writerow(get_desired_ranks(taxid, desired_ranks))
if __name__ == '__main__':
taxids = [1204725, 2162, 1300163, 420247]
desired_ranks = ['kingdom', 'phylum', 'class', 'order', 'family', 'genus', 'species']
path = 'taxids.csv'
main(taxids, desired_ranks, path)
Большое спасибо за любую помощь, которую вы могли бы оказать.
1 ответ
Давай оставим твои taxids
как они есть.
taxids = [1204725, 2162, 1300163, 420247]
Тогда позвони get_desired_ranks
для каждого человека taxid
,
for taxid in taxids:
ranks = get_desired_ranks(taxid, desired_ranks)
Сейчас звоните ncbi.get_taxid_translator
для каждого key
(ранг) в ranks
а также print
выход:
for taxid in taxids:
print(ncbi.get_taxid_translator([taxid]))
ranks = get_desired_ranks(taxid, desired_ranks)
for key, rank in ranks.items():
if rank != '<not present>':
print(ncbi.get_taxid_translator([rank]))
Выход
{1204725: 'Methanobacterium formicicum DSM 3637'}
{183925: 'Methanobacteria'}
{2159: 'Methanobacteriaceae'}
{2160: 'Methanobacterium'}
{28890: 'Euryarchaeota'}
{2162: 'Methanobacterium formicicum'}
{2158: 'Methanobacteriales'}
{2162: 'Methanobacterium formicicum'}
[...]
{420247: 'Methanobrevibacter smithii ATCC 35061'}
{183925: 'Methanobacteria'}
{2159: 'Methanobacteriaceae'}
{2172: 'Methanobrevibacter'}
{28890: 'Euryarchaeota'}
{2173: 'Methanobrevibacter smithii'}
{2158: 'Methanobacteriales'}
Полный код с улучшенным выводом
import csv
from ete3 import NCBITaxa
ncbi = NCBITaxa()
def get_desired_ranks(taxid, desired_ranks):
lineage = ncbi.get_lineage(taxid)
names = ncbi.get_taxid_translator(lineage)
lineage2ranks = ncbi.get_rank(names)
ranks2lineage = dict((rank,taxid) for (taxid, rank) in lineage2ranks.items())
return{'{}_id'.format(rank): ranks2lineage.get(rank, '<not present>') for rank in desired_ranks}
if __name__ == '__main__':
taxids = [1204725, 2162, 1300163, 420247]
desired_ranks = ['kingdom', 'phylum', 'class', 'order', 'family', 'genus', 'species']
for taxid in taxids:
print(list(ncbi.get_taxid_translator([taxid]).values())[0])
ranks = get_desired_ranks(taxid, desired_ranks)
for key, rank in ranks.items():
if rank != '<not present>':
print(key + ': ' + list(ncbi.get_taxid_translator([rank]).values())[0])
print('=' * 60)
Если вы хотите иметь вывод через табуляцию, вы можете объединить строки с \t
или просто добавьте все результаты в list
а также join
с \t
,
В приведенном ниже фрагменте результаты хранятся в list
называется results
который содержит другой список, в котором хранятся ваши поля (оригинальный идентификатор, королевство и т. д.). В каждом цикле результаты добавляются к последней записи (results[-1]
).
if __name__ == '__main__':
taxids = [1204725, 2162, 1300163, 420247]
desired_ranks = ['kingdom', 'phylum', 'class', 'order', 'family', 'genus', 'species']
results = list()
for taxid in taxids:
results.append(list())
results[-1].append(str(taxid))
ranks = get_desired_ranks(taxid, desired_ranks)
for key, rank in ranks.items():
if rank != '<not present>':
results[-1].append(list(ncbi.get_taxid_translator([rank]).values())[0])
else:
results[-1].append(rank)
#generate the header
header = ['Original_query_taxid']
header.extend(desired_ranks)
print('\t'.join(header))
#print the results
for result in results:
print('\t'.join(result))
Выход
Original_query_taxid kingdom phylum class order family genus species
1204725 Methanobacterium formicicum Methanobacteriaceae Euryarchaeota
Methanobacteria Methanobacteriales Methanobacterium <not present>
2162 Methanobacterium formicicum Methanobacteriaceae Euryarchaeota
Methanobacteria Methanobacteriales Methanobacterium <not present>
1300163 Methanobacterium formicicum Methanobacteriaceae Euryarchaeota
Methanobacteria Methanobacteriales Methanobacterium <not present>
420247 Methanobrevibacter smithii Methanobacteriaceae Euryarchaeota
Methanobacteria Methanobacteriales Methanobrevibacter <not present>