Объедините несколько файлов VCF в один большой файл VCF

У меня есть список файлов VCF определенной национальности, например американских индейцев, китайцев, европейцев и т. Д.

Для каждой национальности у меня есть около 100+ файлов.

В настоящее время я вычислил VARIANT QC такие показатели, как call_rate, n_het и т. д. для одного файла, как показано в учебном пособии по градусам (см. изображение ниже)

изображение здесь

Однако теперь я хотел бы иметь один файл для каждой этнической принадлежности, а затем вычислить VARIANT_QC метрики.

Я уже ссылался на этот пост и этот пост, но не думаю, что это относится к моему запросу

Как это сделать для всех файлов определенной этнической принадлежности?

Может мне с этим помочь?

Есть ли hail/python/R/other tools способ сделать это?

1 ответ

Решение

Вы можете использовать вариантные преобразования для достижения этой цели. Variant Transforms - это инструмент для анализа и импорта файлов VCF в BigQuery. Он также может выполнять обратное преобразование: экспортировать варианты, хранящиеся в таблицах BigQuery, в файл VCF. Итак, в основном вам необходимо:   multiple VCF files -> BigQuery -> Single VCF file

Variant Transforms может легко обрабатывать несколько входных файлов. Он также может выполнять более сложную логику для объединения одних и тех же вариантов из нескольких файлов в одну и ту же запись. После того, как все ваши варианты загружены в BigQuery, вы можете экспортировать их в файл VCF.

Обратите внимание, что Variant Transforms создает отдельную таблицу для каждой хромосомы, чтобы оптимизировать затраты на запросы. Вы можете легко создать файл VCF для каждой хромосомы, а затем объединить их вместе, чтобы создать одну.

Вы можете обратиться к команде Variant Transforms, если вам понадобится помощь с этой задачей.

Другие вопросы по тегам