Объедините несколько файлов VCF в один большой файл VCF
У меня есть список файлов VCF определенной национальности, например американских индейцев, китайцев, европейцев и т. Д.
Для каждой национальности у меня есть около 100+ файлов.
В настоящее время я вычислил
VARIANT QC
такие показатели, как
call_rate
,
n_het
и т. д. для одного файла, как показано в учебном пособии по градусам (см. изображение ниже)
Однако теперь я хотел бы иметь один файл для каждой этнической принадлежности, а затем вычислить
VARIANT_QC
метрики.
Я уже ссылался на этот пост и этот пост, но не думаю, что это относится к моему запросу
Как это сделать для всех файлов определенной этнической принадлежности?
Может мне с этим помочь?
Есть ли
hail/python/R/other tools
способ сделать это?
1 ответ
Вы можете использовать вариантные преобразования для достижения этой цели. Variant Transforms - это инструмент для анализа и импорта файлов VCF в BigQuery. Он также может выполнять обратное преобразование: экспортировать варианты, хранящиеся в таблицах BigQuery, в файл VCF. Итак, в основном вам необходимо:
multiple VCF files -> BigQuery -> Single VCF file
Variant Transforms может легко обрабатывать несколько входных файлов. Он также может выполнять более сложную логику для объединения одних и тех же вариантов из нескольких файлов в одну и ту же запись. После того, как все ваши варианты загружены в BigQuery, вы можете экспортировать их в файл VCF.
Обратите внимание, что Variant Transforms создает отдельную таблицу для каждой хромосомы, чтобы оптимизировать затраты на запросы. Вы можете легко создать файл VCF для каждой хромосомы, а затем объединить их вместе, чтобы создать одну.
Вы можете обратиться к команде Variant Transforms, если вам понадобится помощь с этой задачей.