Выровнять файлы генома .bam с файлом .fna в Python?

У меня нет опыта в области биоинформатики, но я столкнулся с задачей, в которой мне не хватает подсказки, как продолжить работу с языком программирования Python.

На ftp-сервере есть несколько папок (Reads), каждая из которых включает файл .bam. Эти чтения сгруппированы по номеру псевдонима, который указывает респондента.

Проблема в том, что последовательности генома в считывании перекрываются. Моя задача - реализовать этапы обработки данных, чтобы сравнить каждую из этих групп с эталонной последовательностью генома (которая представляет собой файл .fna).

Очищенные данные будут использоваться для модели машинного обучения, поэтому они должны быть в такой форме представления: один файл .bam для одного респондента.

Может быть, у вас есть несколько библиотек или руководств, которые можно порекомендовать для решения этой проблемы в Python? Какие должны быть шаги?

0 ответов

Другие вопросы по тегам