как я могу разделить информацию о вариантах файла VCF (NGS) в таблице?

Я новичок в python, и это не мой домен, но мне нужно поработать над этим для моего проекта: у меня есть файл VCF, аннотированный с помощью Annovar, и это результат сравнения данных членов семьи, и после того, как я получил информацию связанных с общими вариантами, используя Grep, и я получил такую ​​структуру информации для каждого варианта:

Анатолий Иванович 15274. AT 1079,77 PASS AC = 2;AF = 1,00; AN = 2;DP = 43;ExcessHet = 3,0 · 103; FS = 0,000; MLEAC = 2;MLEAF = 1,00; MQ = 27,07; QD = 27,69; SOR = 1,387;VQSLOD = 1,78 ; виновник = FS;ANNOVAR_DATE = 2020-06-08;Func.refGene = ncRNA_intronic;Gene.refGene = WASH7P;GeneDetail.refGene = .; ExonicFunc.refGene = .; AAChange.refGene = .; Func.refGeneWithVerint = ncRNA_intronic;.refGeneWithVer = WASH7P;GeneDetail.refGeneWithVer = .; ExonicFunc.refGeneWithVer = .; AAChange.refGeneWithVer = .; Func.knownGene = ncRNA_exonic;Gene.knownGene = WASH7P;GeneDetailonic.known .; = .; Func.ensGene = ncRNA_intronic;Gene.ensGene = ENSG00000227232;GeneDetail.ensGene = .; ExonicFunc.ensGene = .; AAChange.ensGene = .; avsift = .; SIFT_score = .; SIFT_pred = .; Polyphen2_HDIV_score_= .; = .; Polyphen2_HVAR_score = .; Polyphen2_HVAR_pred = .; LRT_score = .; LRT_pred = .; MutationTaster_score = .; MutationTaster_pred = .;MutationAssessor_score = .; MutationAssessor_pred = .; FATHMM_score = .; FATHMM_pred = .; RadialSVM_score = .; RadialSVM_pred = .; LR_score = .; LR_pred = .; VEST3_score = .; ; phyloP46way_placental = .; phyloP100way_vertebrate = .; SiPhy_29way_logOdds = .; AF = 0,6129;AF_popmax = 0,6805;AF_male = 0,6107;AF_female = 0,6158;AF_raw = 0,5990;AF_afr = 0,5681;AF_sas = 0,67; AF_sas = 0,67; AF_sas = 0,67; = 0,6454;AF_fin = 0,6480;AF_asj = 0,7169;AF_oth = 0,6365;non_topmed_AF_popmax = 0,6837;non_neuro_AF_popmax = 0,6553;non_cancer_AF_popmax = .; controls_AF_popmax = 0,6581;AF = .; AF_popmax = 0,6581;AF = .; AF_popmax = 0,6581;AF = .; AF_popmax = 0,6581;AF = .; AF_popmax = 0,6581;AF_popmax = .; ; AF_afr = .; AF_sas = .; AF_amr = .; AF_eas = .; AF_nfe = .; AF_fin = .; AF_asj = .; AF_oth = .; non_topmed_AF_popmax = .; non_neuro_AF_popmax = .; non_cancer_AF_popmax = .; controls_AF_popmqax = .; = 0,72;GME_AF = .; GME_NWA = .; GME_NEA = .; GME_AP = .; GME_Israel = .; GME_SD = .; GME_TP = .; GME_CA = .;snp138 = rs62636497;avsnp147 = rs62636497;DN ID = .; ID пациента = .; Фенотип = .; Platform = .; Study = .; Pubmed ID = .; DamagePredCount = .; SIFT_pred = .; SIFT4G_pred = .; Polyphen2_HDIV_pred =. ; Polyphen2_HVAR_pred = .; LRT_pred = .; MutationTaster_pred = .; MutationAssessor_pred = .; FATHMM_pred = .; PROVEAN_pred = .; VEST4_score = .; MetaSVM_pred = .; MetaLR_pred = .; M-CAP_pred_pred = .; ; MVP_score = .; MPC_score = .; PrimateAI_pred = .; DEOGEN2_pred = .; BayesDel_addAF_pred = .; BayesDel_noAF_pred = .; ClinPred_pred = .; LIST-S2_pred = .; CADD_raw = .; CADD_phred = .; fath_scorep = .; = .; fathmm-XF_coding_pred = .; Eigen-raw_coding = .; Eigen-phred_coding = .; Eigen-PC-raw_coding = .; Eigen-PC-phred_coding = .; GenoCanyon_score = .; Integrated_fitCons_score = .; GM12878_fitCons_score = .; H1-hESC_fitCons_score = .; HUVEC_fitCons_score = .; LINSIGHT = .; GERP++ _ NR = .; GERP++ _ RS = .; phyloP100way_vertebrate = .;phyloP30way_mammalian = .; phyloP17way_primate = .; phastCons100way_vertebrate = .; phastCons30way_mammalian = .; phastCons17way_primate = .; bStatistic = .; Interpro_domain = .; GTEx_V8_gene = .; GTEx_V8cnc = .; .; CADD13_RawScore = .; CADD13_PHRED = .; CLNALLELEID = .; CLNDN = .; CLNDISDB = .; CLNREVSTAT = .; CLNSIG = .; InterVar_automated = .; PVS1 = .; PS1 = .; PS2 = .; PS3 = .; PS4 = .; PM1 = .; PM2 = .; PM3 = .; PM4 = .; PM5 = .; PM6 = .; PP1 = .; PP2 = .; PP3 = .; PP4 = .; PP5 = .; BA1 = .; BS1 = .; BS2 = .; BS3 = .; BS4 = .; BP1 = .; BP2 = .; BP3 = .; BP4 = .; BP5 = .; BP6 = .; BP7 = .; ALLELE_END GT:AD:DP:GQ:PL 1/1:0,39:39:99: 1108,118,0CLNDN = .; CLNDISDB = .; CLNREVSTAT = .; CLNSIG = .; InterVar_automated = .; PVS1 = .; PS1 = .; PS2 = .; PS3 = .; PS4 = .; PM1 = .; PM2 = .; PM3 = .; PM4 = .; PM5 = .; PM6 = .; PP1 = .; PP2 = .; PP3 = .; PP4 = .; PP5 = .; BA1 = .; BS1 = .; BS2 = .; BS3 = .; BS4 = .; BP1 = .; BP2 = .; BP3 = .; BP4 = .; BP5 = .; BP6 = .; BP7 = .; ALLELE_END GT: AD: DP: GQ: PL 1/1:0,39:39:99: 1108,118,0CLNDN = .; CLNDISDB = .; CLNREVSTAT = .; CLNSIG = .; InterVar_automated = .; PVS1 = .; PS1 = .; PS2 = .; PS3 = .; PS4 = .; PM1 = .; PM2 = .; PM3 = .; PM4 = .; PM5 = .; PM6 = .; PP1 = .; PP2 = .; PP3 = .; PP4 = .; PP5 = .; BA1 = .; BS1 = .; BS2 = .; BS3 = .; BS4 = .; BP1 = .; BP2 = .; BP3 = .; BP4 = .; BP5 = .; BP6 = .; BP7 = .; ALLELE_END GT: AD: DP: GQ: PL 1/1:0,39:39:99: 1108,118,0

Я использовал этот скрипт на ноутбуке jupyter, чтобы получить файл CSV с разделенными столбцами:

И полученные результаты выглядят так:

введите описание изображения здесь

DP MQ LOD FractionInformativeReads VQSLOD ANNOVAR_DATE Func.refGene Gene.refGene GeneDetail.refGene ExonicFunc.refGene ... BP2 BP3 BP4 BP5 BP6 BP7 MQRankSum ReadPosRankSum CLNDISDB = MedGen CLNDISDB12 0,99–0,99–0,99–0,99–0,99–0,99–0,99–0,99–0,99–0,99–0,99–0,99–0,99–0,99–0,99–0,99–0,99–0,99–0,99–0,99–0,99–0,99–0,99–0,99–0,99–0,99–0,99–0,99–0,99–0,99–0,99–0,99–0,99–0,99–0,99–0,99–0,99–0,99–0,99–0,99–0,99–0,99–0,99–0,99–0,99–0,99–0,99–0,9–0,99 x3bNONE расстояние \x3dNONE\x3bdist\x3dNONE. .... . . . . . NaN NaN NaN NaN 1 1793 60,00 7319,71 0,973 -2054,37 2020-06-08 межгенный NONE\x3bNONE dist \x3dNONE\x3bdist\x3dNONE. .... . . . . . 1,730 0,963 NaN NaN 2 1779 60,00 7678,61 0,972 -2023,32 2020-06-08 межгенный NONE\x3bNONE dist \x3dNONE\x3bdist\x3dNONE. .... . . . . . NaN NaN NaN NaN 3 1641 59,97 7329,44 0,984 -1720,89 2020-06-08 межгенный NONE\x3bNONE dist \x3dNONE\x3bdist\x3dNONE. .... . . . . . NaN NaN NaN NaN 4 1511 59,97 7236,00 0,983 -1452,52 2020-06-08 межгенный NONE\x3bNONE dist \x3dNONE\x3bdist\x3dNONE

==> Итак, здесь у меня две основные проблемы:

  1. первый, который я не буду удалять 7 первых строк, и я хочу, чтобы они были организованы в столбец следующим образом:CHROM POS ID REF ALT QUAL FILTERchr1 15274. НА 1079.77 ПАСС

  2. Вторая проблема в том, что последняя строка информации полностью удалена:

GT:AD:DP:GQ:PL 1/1:0,39:39:99: 1108,118,0, и я хотел, чтобы они присутствовали, в которых GT IS соответствует 1/1, а AD соответствует 0,39 ... и т. д., поэтому разделение будет ":"

Спасибо за вашу помощь

0 ответов

Другие вопросы по тегам