Описание тега vcf-variant-call-format

Формат вызова вариантов (VCF) определяет формат текстового файла, используемый в биоинформатике для хранения вариаций последовательности генов. Не используйте этот тег для стандартного формата файлов vCard для электронных визитных карточек.
1 ответ

Как извлечь информацию о генотипе для каждого образца в виде строки из файла VCF с помощью htslib?

Я использую htslib для извлечения всей информации, содержащейся в файле VCF на C++. В настоящее время, благодаря спецификации VCF и документации в файле , я успешно извлек всю информацию метаданных в заголовке ( строки метаинформации ) и большую час…
0 ответов

Извлечь поле из столбца [закрыто]

Это скриншот моего файла. Я хочу разделить поле «Дополнительно» на отдельные вкладки.
25 мар '21 в 14:48
2 ответа

Подсчитать общее уникальное количество записей на основе столбцов из нескольких файлов VCF

У меня около 200 файлов с длинными строками заголовков, которые начинаются с символа «#», а затем записываются с 4 столбцами, например: file_1.vcf ##some_comments that span many lines ##some_comments that span many lines #CRHOM POS REF ALT chr1 111 …
2 ответа

извлекать содержимое переменной строки между каналами в файле VCF

эта проблема может выглядеть связанной с генетикой, но на самом деле она основана на программировании. У меня есть следующий файл vcf (конкретный файл txt, полученный из инструмента, называемого VEP) с заголовком и этим содержимым столбцов: #CHROM P…
4 ответа

Удаление только части символьной строки в txt файле - строка chr

Я хотел бы удалить строки «chr» в следующем текстовом файле с помощью bash: FO538757.1 chr1:183937 AL669831.3 chr1:601436 AL669831.3 chr1:601667 AL669831.3 chr1:609395 AL669831.3 chr1:609407 AL669831.3 chr1:611317 Итак, конечный файл выглядит так: F…
1 ответ

Pivot_longer: GVCF столбцы в строки

Добрый день, после просмотра переполнения стека и не найдя решения моей конкретной проблемы, я решил спросить сообщество, надеясь, что это может быть полезно и для кого-то другого. У меня есть генетические данные в совместном формате VCF. Я пытаюсь …
0 ответов

как получить rsID SNP по номеру и положению хромосомы

Чтобы обновить идентификатор SNP моего файла сводной статистики, у меня есть несколько вопросов: Во-первых, я создал текстовый файл из файла сводной статистики со следующей информацией: 1 1118275 vh_1_1108138 GA 1 1120431 vh_1_1110294 AG1 1135242 rs…
02 июн '21 в 21:30
0 ответов

Проверьте, является ли поле ALT в VCF токеном в угловых скобках или списком токенов в угловых скобках, используя pyvcf

Можно ли проверить, является ли поле ALT в VCF токеном в угловых скобках или списком токенов в угловых скобках с помощью пакета pyvcf python? Например, рассмотрим следующую строку VCF: #CHROM POS ID REF ALT QUAL FILTER INFO FORMAT NA12877_S1 22 4252…
08 июл '21 в 10:29
4 ответа

Цикл AWK по нескольким столбцам

Представьте, что у меня следующая ситуация (несколько столбцов и строк): 1/1:123:121 TAB 0/0:1:21 TAB 1/1:12:14 0/1:12:23 TAB 0/1:12:15 TAB 0/0:123:16 0/0:3:178 TAB 1/1:123:121 TAB 1/1:2:28 Хотелось бы, чтобы awk перебирал каждый столбец и записывал…
0 ответов

Пакет python для проверки vcf

Есть ли пакет python для проверки файла vcf или есть способ проверить файл vcf с помощью pyvcf?
05 авг '21 в 19:14
0 ответов

Создайте файл tabix-index VCF (Variant Call Format) с помощью Python

У меня есть такой файл: myfile.vcf.gz. Я хочу проанализировать это с помощью PyVCF в Python. Однако необходимо также проиндексировать этот файл: myfile.vcf.gz.tbi. Можно ли это сделать прямо в Python? Любые предложения приветствуются!
1 ответ

Объединение двух файлов VCF с разными идентификаторами сэмплов и местоположениями

Добрый день, Как объединить несколько файлов вызовов Variant (VCF) с разными темами? Я несколько наборов данных VCF с разными sampleIds и местоположениями: file1: contigName |start | end | names | referenceAllele | alternateAlleles| qual| filters| s…
30 сен '21 в 13:40
0 ответов

как я могу разделить информацию о вариантах файла VCF (NGS) в таблице?

Я новичок в python, и это не мой домен, но мне нужно поработать над этим для моего проекта: у меня есть файл VCF, аннотированный с помощью Annovar, и это результат сравнения данных членов семьи, и после того, как я получил информацию связанных с общ…
0 ответов

Что означает "NEGATIVE_TRAIN_SITE" в VQSR?

Я нигде не могу найти, что означает «NEGATIVE_TRAIN_SITE» в данных VCF после VQSR. (Я искал везде в GATK) Я думал, что это означает, что вариант считается не на сайте истины из-за плохих оценок VQSLOD и должен быть отфильтрован. Однако в моих данных…
30 сен '21 в 16:24
0 ответов

Извлечение количества с точной группой строк из длинной строки с символами

У меня есть этот файл с такими фрагментами: ## many comments here chrY 2893596 . C T . PASS AC=1;AN=32183;AF=3.10723e-05;popmax=afr;strings1;strings2;strings2;strings3;etc;ENSG00000129824|strings|strings|strings|intron_variant|MODIFIER|HSFY3P|ENSG00…
1 ответ

Разделить мультиаллельный на двуаллельный в vcf по plink 1.9 и его варианту имени

Я пытаюсь использовать plink1.9 для разделения мультиаллельного на двуаллельный. Вход состоит в том, что 1 chr1:930939:G:A 0 930939 G A 1 chr1:930947:G:A 0 930947 A G 1 chr1:930952:G:A;chr1:930952:G:C 0 930952 A G Что он сделал: 1 chr1:930939:G:A 0 …
0 ответов

Как конвертировать .csv в .vcf файл в R

Я работаю над аннотацией вариантов и подготовил результат в файле CSV. Я хотел бы спросить всех, как конвертировать xx.csv в файл xx.vcf в R? Спасибо
0 ответов

инструменты vt разложить - median_DP

У меня есть таблица медианы Chr, pos, ref, alt, DP, которая когда-то была многоаллельной, но преобразована с помощью vt, разложить на двуаллельную. Однако медиана DP не становится двуаллельной даже с флагом -s. Оставив меня со столом как таковым: По…
4 ответа

.vcf данные в pandas dataframe

Как я могу преобразовать следующие данные .vcf в фреймворк pandas? Ссылка GDrive на файл .txt В идеале хотелось бы в виде: Пока мне удалось получить только заголовки: import pandas as pd f = open('clinvar_final.txt',"r") for line in f.readlines(): i…
1 ответ

Возникли проблемы с загрузкой файла .vcf в Plink

Я новичок в кодировании и использовании plink, и в настоящее время у меня проблемы с загрузкой моего файла vcf в командную строку plink. Я набрал: plink --vcf [PD630.vcf] Но получил эту ошибку: Ошибка: не удалось открыть [PD630.vcf]. (--vcf ожидает …