Выровнять файлы генома .bam с файлом .fna в Python?
У меня нет опыта в области биоинформатики, но я столкнулся с задачей, в которой мне не хватает подсказки, как продолжить работу с языком программирования Python.
На ftp-сервере есть несколько папок (Reads), каждая из которых включает файл .bam. Эти чтения сгруппированы по номеру псевдонима, который указывает респондента.
Проблема в том, что последовательности генома в считывании перекрываются. Моя задача - реализовать этапы обработки данных, чтобы сравнить каждую из этих групп с эталонной последовательностью генома (которая представляет собой файл .fna).
Очищенные данные будут использоваться для модели машинного обучения, поэтому они должны быть в такой форме представления: один файл .bam для одного респондента.
Может быть, у вас есть несколько библиотек или руководств, которые можно порекомендовать для решения этой проблемы в Python? Какие должны быть шаги?