Как назначить таксономию для последовательностей trnL, используя BLAST

Я использую ген хлоропластов trnL для идентификации растений из навоза травоядных, и в настоящее время пытаюсь назначить таксономию последовательностям trnL из моего вывода Illumina. Вот сценарий QIIME и параметры, которые я хотел бы запустить:

assign_taxonomy.py -i rep_set_numbered.fa -r sequence.fasta -t id_to_taxonomy.txt -e 0.01 -m blast

У меня есть входной файл из нашего конвейера данных и справочный файл из NCBI GenBank (205 703 последовательностей). Однако у меня нет текстового файла таксономии с разделителями табуляции. Обычно я генерирую один из Excel, но, поскольку файл FASTA очень большой (более 500 МБ), он не может быть полностью просмотрен в Excel и, следовательно, не может быть надежно отредактирован.

У меня вопрос, есть ли метод командной строки для создания моего собственного файла таксономии с разделителями табуляции из моего эталонного файла FASTA, и если да, то как мне это сделать? Если нет, каковы другие варианты обработки этого обязательного параметра в сценарии QIIME assign_taxonomy.py?

0 ответов

Другие вопросы по тегам