Как использовать функцию distancematrix из Biopython?

Я хотел бы рассчитать матрицу расстояний (используя функцию генетического расстояния) для набора данных, используя http://biopython.org/DIST/docs/api/Bio.Cluster.Record-class.html, но я, кажется, продолжаю получать ошибки, обычно сообщая мне, что ранг не равен 2. На самом деле я не уверен, что он хочет в качестве входных данных, так как документация никогда не говорит, и в Интернете нет примеров.

Скажем, я прочитал несколько выровненных последовательностей генов:

SingleLetterAlphabet() alignment with 7 rows and 52 columns
AEPNAATNYATEAMDSLKTQAIDLISQTWPVVTTVVVAGLVIRL...SKA COATB_BPIKE/30-81
AEPNAATNYATEAMDSLKTQAIDLISQTWPVVTTVVVAGLVIKL...SRA Q9T0Q8_BPIKE/1-52
DGTSTATSYATEAMNSLKTQATDLIDQTWPVVTSVAVAGLAIRL...SKA COATB_BPI22/32-83
AEGDDP---AKAAFNSLQASATEYIGYAWAMVVVIVGATIGIKL...SKA COATB_BPM13/24-72
AEGDDP---AKAAFDSLQASATEYIGYAWAMVVVIVGATIGIKL...SKA COATB_BPZJ2/1-49
AEGDDP---AKAAFDSLQASATEYIGYAWAMVVVIVGATIGIKL...SKA Q9T0Q9_BPFD/1-49
FAADDATSQAKAAFDSLTAQATEMSGYAWALVVLVVGATVGIKL...SRA COATB_BPIF1/22-73

что будет сделано

data = Align.read("dataset.fasta","fasta")

Но матрица расстояний в классе Cluster.Record не принимает это. Как я могу заставить его работать! т.е.

dist_mtx = distancematrix(data)

1 ответ

Краткий ответ: нет.

Из документации:

Запись хранит данные экспрессии гена и связанную информацию

Cluster Объект используется для данных генной экспрессии, а не для MSA. Я бы порекомендовал использовать внешний инструмент, такой как MSARC, который также работает на Python.

Другие вопросы по тегам