Как бороться с завершающим мусором, вызванным разархивированием файла fastq hs37d5
Я действительно пытался решить эту проблему, но, похоже, никто другой не сталкивался с этой проблемой раньше. Я распаковал файл fastq от 1000G:
gunzip -c **hs37d5.fa.gz** | awk '{if(NR%4==1) {printf(">%s\n",substr($0,2));} else if(NR%4==2) print;}' > ref.fa
Тем не менее, в разархивированной папке есть "конечный мусор", и это вызывает следующую ошибку:
"Исключение в потоке"main" picard.PicardException: имя последовательности появляется более одного раза в ссылке: NNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNN"
при попытке запустить:
java -jar picard.jar CreateSequenceDictionary R=ref.fasta O=ref.dict
Если бы кто-то мог оказать мне небольшую помощь, это было бы очень ценно.