Как бороться с завершающим мусором, вызванным разархивированием файла fastq hs37d5

Я действительно пытался решить эту проблему, но, похоже, никто другой не сталкивался с этой проблемой раньше. Я распаковал файл fastq от 1000G:

gunzip -c **hs37d5.fa.gz** | awk '{if(NR%4==1) {printf(">%s\n",substr($0,2));} else if(NR%4==2) print;}' > ref.fa

Тем не менее, в разархивированной папке есть "конечный мусор", и это вызывает следующую ошибку:

"Исключение в потоке"main" picard.PicardException: имя последовательности появляется более одного раза в ссылке: NNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNN"

при попытке запустить:

java -jar picard.jar CreateSequenceDictionary R=ref.fasta O=ref.dict

Если бы кто-то мог оказать мне небольшую помощь, это было бы очень ценно.

0 ответов

Другие вопросы по тегам