Как я могу создать файл последовательности FASTQ?

У меня есть геномная база данных, которая содержит простую последовательность символов (например, >chr1 AGTGTCA.....). Теперь я хочу преобразовать его в стандартный формат FASTQ следующим образом:

@HWUSI-EAS594-R:1:3:1453:1350#0/1 
CCCAGTTCCGACGATCGATTTGCACGTCAGAATCGCTACGGACCTCCATCAGGGTTTCCCCTGACTTCGTCCTGACCAGG
+   
ea^cdfdffgggggggggggeggggdggdffgdbdgddgggg`g^dfbfgdggcfbgfffcb]gffbfcfcefbbBBBB

Поскольку у меня нет четкого представления об этом типе формата, я не могу его преобразовать. Как я могу преобразовать простую последовательность символов в формат FASTQ (как в приведенном выше примере)?

В частности, я спрашиваю:

  1. Есть ли существующий код для кодирования?
  2. Если нет, как я могу кодировать последовательность символов в FASTQ? Что означает этот формат и как я могу его создать?

1 ответ

Решение

Поскольку у вас есть только последовательность, а не показатели качества (надежности) при выводе последовательности, я думаю, что у вас недостаточно информации для создания файла FASTQ. (Однако я не эксперт по биоинформатике.) Вместо этого вам, вероятно, следует продолжать использовать формат файла FASTA, который содержит только информацию о последовательности.

Другие вопросы по тегам