Гранатовый тренировочный HMM с данными, размеченными для групп состояний

Я пытаюсь обучить HMM, построенный с гранатом, на питоне, чтобы предсказать присутствие сигнальных пептидов в AA-последовательностях белка, а также сайт расщепления сигнального пептида. Более или менее повторяя работу SignalP2.0, я разделил сигнальный пептид на три области, h-, n- и c-области, представляющие гидрофобную трансмембранную область из 6-20 AA, область с высокая встречаемость положительно заряженных АК и область с полярными, но в основном незаряженными АК, соответственно. N-область начинается с N-конца последовательности белка AA, за ней следует h-область, затем c-область и сайт расщепления, перемещающиеся к C-концу. Не заходя слишком далеко в архитектуру HMM, это изображение того, как настроены состояния, с серыми прямоугольниками, представляющими связанные распределения выбросов для состояний внутри прямоугольника.

Для обучения я хочу использовать набор данных, который строго помечен в отношении положения сайта расщепления, здесь каждому наблюдению присваивается одна из двух возможных меток, S, которая представляет собой наблюдение (аминокислоту) в сигнальном пептиде и O, который представляет собой наблюдение (AA) вне сигнального пептида в общей последовательности. Другими словами, метка S означает, что наблюдение попадает в h-, n- или c-область модели, но не указывает, какая область или какое положение, какое конкретное состояние в моей модели HMM (h1,h2,h3,n1,n2 и т. д.), наблюдение находится в. Например: "MQRNLVVLLFLGMVALSSCGFREKHFQRFVKYAVPESTLRTVLQTVVHKVGKTQFGCPAYQGYCDDHCQD" последовательность "MQRNLVVLLFLGMVALSSCGFREKHFQRFVKYAVPESTLRTVLQTVVHKVGKTQFGCPAYQGYCDDHCQD" последовательность "MQRNLVVLLFLGMVALSSCGFREKHFQRFVKYAVPESTLRTVLQTVVHKVGKTQFGCPAYQGYCDDHCQD" последовательность "SSSOOSSOOSSOOSSSSOOLLOOOOOOOOOOO с сайтом расщепления между последним C, обозначенным как S, и первым G, обозначенным как O. Наблюдения, обозначенные как O, являются частью зрелого белка, отщепляемого от сигнального пептида, начиная с состояний m1,m2,m3,m4,... Используя Эти помеченные данные при обучении, сайт расщепления всегда располагается правильно в каждой обучающей выборке, но HMM остается выяснить, где поставить границы между h-, n- и c-областями.

Возможен ли этот тип маркированного обучения с использованием граната, или мне придется искать другую библиотеку HMM? (Есть ли хоть какая-нибудь библиотека, поддерживающая это?)

0 ответов

Другие вопросы по тегам