Как найти области кодирования из пересекаемого файла VCF?

Я студент, и мой отчет доставляет мне много проблем. Я полный новичок и надеюсь, что вы поможете мне на моем пути.

У меня есть проблемы с тем, как я подхожу к следующему, используя Python:
я смотрю когортное исследование, в котором изучаются мутации соответственно у тощих и тучных свиней по сравнению со свиньями дикого типа. Я должен определить, какие SNP или мутации изменяют аминокислотную последовательность белка. Исследуется конкретная хромосома.

Вот те файлы, которые у меня есть: у меня есть файл VCF, содержащий информацию о мутациях. У меня есть файл аннотации CDS ( файл gtf) с областью кодирования белка. У меня есть файл, в котором файл VCF пересекается с файлом аннотации с помощью программных средств, а затем у меня есть файл fasta с геномной последовательностью исследуемой хромосомы.

Я не уверен, как я подхожу к этой проблеме. Я представляю, что мне нужно сделать следующее: найти кодирующие области, чтобы у меня были кодирующие области дикого типа. Затем извлеките информацию из файла VCF, чтобы создать файл с последовательностью, включающей мутации. Затем я могу перевести последовательность дикого типа и последовательность мутаций и определить, какие мутации приводят к другой аминокислотной последовательности.

Есть ли у кого-нибудь советы или руководство для того, какой код Python я могу использовать, чтобы найти области кодирования, а также, возможно, извлечь соответствующую информацию из файла VCF? Я провел много дней и часов, никуда не уезжая. Поэтому любая помощь приветствуется!

Спасибо!

0 ответов

Другие вопросы по тегам