GatK и код для извлечения значений GT из столбцов INFO в файле vcf

У меня есть файл vcf с подробным описанием двуаллельных SNP в восьми последовательностях генома в каждой позиции каркаса на участке хромосомы длиной примерно 20 000 п.н. Для каждой строки моего файла vcf я хочу вычислить вклад в частоту аллелей от каждого из восьми видов. Формат каждого столбца видов - GT:AD:DP:GQ:PL. Я считаю, что мог бы добиться этого, используя инструмент GatK Variants to Table, затем извлекая значение GT и разделив его на количество аллелей из столбца INFO, чтобы создать восемь дополнительных столбцов «относительной AF» в файле csv, созданном GatK. Может ли кто-нибудь предоставить подходящий код для этого? Для GatK может потребоваться эталонный фаста, которого у меня нет, но, надеюсь, принцип все еще имеет смысл?

0 ответов

Другие вопросы по тегам