Набор инструментов для анализа генома — обнаружение вариантов в данных высокопроизводительного секвенирования
1 ответ

snakemake несколько параметров для нескольких входов и одного выхода в snakemake. ConbineGVCFs проблема gatk

Я написал правило для CombineGVCF в gatk4. Правило следующее all_gvcf = get_all_gvcf_list() rule cohort: input: all_gvcf_list = all_gvcf, ref="/data/refgenome/hg38.fa", interval_list = prefix+"/bedfiles/hg38.interval_list", params: extra = "--varian…
16 сен '21 в 16:35
0 ответов

Что означает "NEGATIVE_TRAIN_SITE" в VQSR?

Я нигде не могу найти, что означает «NEGATIVE_TRAIN_SITE» в данных VCF после VQSR. (Я искал везде в GATK) Я думал, что это означает, что вариант считается не на сайте истины из-за плохих оценок VQSLOD и должен быть отфильтрован. Однако в моих данных…
30 сен '21 в 16:24
1 ответ

Ошибка позиционного аргумента gatk VariantRecalibrator

Я пытаюсь выполнить повторную калибровку vcf с помощью gatk VariantRecalibrator, но продолжаю получать сообщение об ошибке «Недопустимое значение аргумента: предоставлены позиционные аргументы». Но я не знаю, что это значит и как это исправить! Вот …
10 дек '21 в 23:36
0 ответов

Добавление в файл GVCF экзомов 1000G, чтобы gatk VariantRecalibrator работал с небольшим образцом

У меня есть данные секвенирования небольшого ампликона размером 500 п.н. из нескольких образцов. Лучшие принципы GATK предполагают запуск VariantRecalibrator с файлами GVCF, которые я генерирую. Я пытаюсь заставить это работать, но получаю сообщение…
12 дек '21 в 16:59
1 ответ

Объедините каталог файлов GVCF с gatk CombineGVCFs

Я создал набор из примерно 400 файлов GVCF с помощью gatk HaplotypeCaller, с вариант. Теперь я хотел бы объединить их для последующего генотипирования и повторной калибровки вариантов. Я считаю, что могу комбинировать с gatk CombineGVCF. gatk Combin…
14 дек '21 в 02:14
0 ответов

gatk CombineGVCFs, используя файл аргументов с пробелами в пути

Я использую gatk CombineGVCF и предоставляю пути к GVCF для объединения с помощью файла аргументов, но получаю сообщение об ошибке, когда в пути к файлу в файле аргументов есть пробелы. Вот пример содержимого файла аргументов: --variant /mnt/gpfs/li…
20 дек '21 в 16:46
1 ответ

Snakemake: создать несколько подстановочных знаков для одного и того же аргумента

Я пытаюсь запустить GenotypeGVCFsна многих файлах vcf. Командная строка хочет, чтобы каждый vcf файлы будут перечислены как: java-jar GenomeAnalysisTK.jar -T GenotypeGVCFs \ -R my.fasta \ -V bob.vcf \ -V smith.vcf \ -V kelly.vcf \ -o {output.out} Ка…
29 дек '21 в 13:09
0 ответов

Объект Snakemake 'Wildcards' не имеет атрибута

Я работаю над созданием змеи для анализа вызова трио de novo. У меня есть следующие входные файлы в формате: Trio1_P, Trio1_M, Trio1_F Trio2_P, Trio2_M, Trio2_F ..etc (_P = proband, _M = mother, _F = father) В моем змеемейке я определяю следующие по…
02 янв '22 в 07:16
0 ответов

GatK и код для извлечения значений GT из столбцов INFO в файле vcf

У меня есть файл vcf с подробным описанием двуаллельных SNP в восьми последовательностях генома в каждой позиции каркаса на участке хромосомы длиной примерно 20 000 п.н. Для каждой строки моего файла vcf я хочу вычислить вклад в частоту аллелей от к…
02 янв '22 в 22:28
1 ответ

Как запустить ансамбль-веп в конде

Я установил так: conda install ensembl-vep=105.0-0 А затем установил человеческий кеш следующим образом: vep_install -a cf -s homo_sapiens -y GRCh38 -c /mnt/gpfs/live/rd01__/ritd-ag-project-rd018o-mdflo13/refs/vep —CONVERT Но я не могу заставить его…
21 янв '22 в 15:11
0 ответов

Объединенный файл vcf bcftools назначает все варианты одному образцу

Я сделал один файл vcf для каждого из трех образцов. Затем я объединил их с помощью bcftools, например: # Make a list of vcf files to merge cat "${OUT}/results/variants/vcf_list" /mnt/gpfs/live/rd01__/ritd-ag-project-rd018o-mdflo13/data/test/manual/…
25 янв '22 в 00:28
1 ответ

Snakemake первый генотип файла vcf как подстановочный знак в выводе

Во втором правиле я хотел бы выбрать из файла vcf, содержащего боба, клару и тима, только первый генотип словаря (т.е. боб) в родере, чтобы получить результат во втором правиле. bob.dn.vcf. Возможно ли это в snakemake? d = {"FAM1": ["bob.bam", "clar…
03 фев '22 в 14:46
3 ответа

Snakemake интегрирует несколько командных строк в правило

Вывод моей первой командной строки "bcftools query -l {input.invcf} | head -n 1"печатает имя первого индивидуума файла vcf (т.е. IND1). Я хочу использовать этот вывод в selectvariants GATKв -sn IND1вариант. Как можно интегрировать 1-ю командную стро…
04 фев '22 в 14:12
2 ответа

GATK: HaplotypceCaller IntelPairHmm обнаруживает только 1 поток

Кажется, я не могу заставить GATK распознать количество доступных потоков. Я запускаю GATK (4.2.4.1) в среде conda, которая является частью конвейера nextflow (v20.10.0), который я пишу. По какой-то причине я не могу заставить GATK увидеть, что суще…
09 фев '22 в 17:17
1 ответ

Ошибка запуска gatk HaplotypeCaller с аннотациями, специфичными для аллелей.

У меня HaplotypeCaller прекрасно работает в стандартном режиме, например: # Run haplotypcaller gatk --java-options "-Xmx4g" HaplotypeCaller \ --intervals "$INTERVALS" \ -R "$REF" \ -I "$OUT"/results/alignment/${SN}_sorted_marked_recalibrated.bam \ -…
20 янв '22 в 09:01
1 ответ

Как заставить скрипт в Bash (.sh) ждать вывода команды, которая создает файл, прежде чем он завершит работу?

Например, у меня есть этот код bwa mem -t 12 $ref_genome $first_fq $second_fq > bwa_mem_output.sam & # Go to software to run picard cd .. & cd Software & echo 'Converting the result of bwa mem to sam' java -jar picard.jar SamFormatCon…
23 окт '22 в 22:37
0 ответов

HaplotypeCaller предоставляет варианты больше, чем ожидалось

Я использовал HaplotypeCaller для вызова вариантов из файла WES picard.sorted.MarkedDup.bam с GATK 4.2.6.1. Стандартная командная строка HaplotypeCaller. Судя по всему, все заработало и я получил стандартный файл .vcf. Но количество идентифицированн…
13 янв '23 в 10:32
0 ответов

GATK GnarlyГенотип предел аллелей

Я совместно с GATK GEnomicsDBImpot вызываю 167 образцов. Но я получил такую ​​​​ошибку: Образец/набор вызовов 45(идентификатор строки TileDB 107) в позиции Chr1 хромосомы 1320197 (столбец TileDB 247913574) имеет слишком много генотипов в объединенно…
28 июн '22 в 17:24
0 ответов

Как мне использовать эту функцию python в разделе params моего правила Snakemake?

Я пытаюсь выяснить, как извлечь информацию о полосе чтения группы из файла fastq, а затем использовать эту строку в моем GATK AddOrReplaceReadGroups Snakemake ниже (ниже). Я написал короткую функцию Python (в верхней части правила), чтобы выполнить …
23 дек '22 в 18:51
0 ответов

Базовая перекалибровка от GATK

Кто-нибудь знает, почему размер bam-файла после использования BaseRecarbonator становится в два раза больше? Я использую GATK_4.1.9. Спасибо!
18 апр '23 в 15:58