Перенос файла сводной статистики GWAS со сборки 38 на сборку 37
Я использую инструмент подъема UCSC и связанную с ним цепочку, чтобы поднять результаты моего файла сводной статистики GWAS (файл, разделенный табуляцией) от сборки 38 до сборки 37. Файл сводной статистики GWAS выглядит так:
1 chr1_17626_G_A 17626 AG 0,016 -0,0332 0,0237 0,161 1 chr_20184_G_A 20184 AG 0,113 -0,185 0,023 0,419
Follwing - это инструмент UCSC со связанной цепочкой, которую я использую:
подъемник: http://hgdownload.soe.ucsc.edu/admin/exe/linux.x86_64/liftOver
файл цепочки: ftp://hgdownload.cse.ucsc.edu/goldenPath/hg38/liftOver/hg38ToHg19.over.chain.gz
Я хочу создать файл в формате кровати из сводной статистики GWAS, который является необходимым вводом для инструмента, где я хотел бы, чтобы первые три столбца были разделены табуляцией, а остальные столбцы были объединены в один столбец и разделены символом разделитель без табуляции, например "." чтобы сохранить их во время движения подъемника. Первые три столбца входного файла кровати будут:
awk '{print chr$1, $3-1, $3}' GWAS summary stat file > ucsc.input.file
#$1 = chrx - where x is chromosome number
#$2 position -1 for SNPs
#$3 bp position hg38 for SNPs
Вышеупомянутые три столбца являются обязательными для инструмента.
Мои вопросы: 1. Как я могу использовать разделитель без табуляции, например ":", чтобы объединить остальные столбцы файла сводной статистики GWAS в один столбец? 2. После запуска подъемника, как я могу распаковать столбцы, разделенные:?
1 ответ
Я не уверен, что это отвечает на ваши вопросы, но, пожалуйста, посмотрите.
Вы можете использовать awk для объединения нескольких столбцов с помощью
awk '{print $1 ":" $2 ":" $3}' file
а затем скажите, что хотите заменить
:
вкладкой в
$1
тогда ты можешь сделать
awk -F ":" '{gsub(/:/,"\t",$1)}1' file
Это поможет?