Объедините каталог файлов GVCF с gatk CombineGVCFs

Я создал набор из примерно 400 файлов GVCF с помощью gatk HaplotypeCaller, с вариант. Теперь я хотел бы объединить их для последующего генотипирования и повторной калибровки вариантов. Я считаю, что могу комбинировать с gatk CombineGVCF.

      gatk CombineGVCFs \
   -R reference.fasta \
   --variant sample1.g.vcf.gz \
   --variant sample2.g.vcf.gz \
   -O cohort.g.vcf.gz

Но я не знаю, как ввести все мои 400 файлов GVCF в CombineGVCF. Я слышал, что это можно сделать с помощью вариант, но я не знаю, как собрать такой файл?

Любая помощь с благодарностью получена!

1 ответ

Во-первых, вам нужно создать текстовый файл, содержащий все GVCF, которые вы хотите объединить:

      ls gvcfs/*.vcf >gvcfs.list

Затем используйте CombineGVCFs:

      gatk --java-options "-Xmx180G -XX:ParallelGCThreads=36" CombineGVCFs -R $ref --variant gvcfs.list --dbsnp $DBSNP -O combined_gvcf.vcf
Другие вопросы по тегам