Рассматривая результаты алгоритмов кластеризации в сетях взаимодействия белков
Я работаю над проектом, включающим кластеризацию сетей взаимодействия с белками, сделав несколько алгоритмов кластеризации на графиках взаимодействующих белков, и я несколько озадачен тем, как бы я сейчас понял, насколько хороши созданные кластеры или нет.
Чтобы поместить это в контекст, сети взаимодействия белков представляют собой парные связи между белками и изолирующими группами взаимодействующих белков, которые участвуют в одних и тех же биологических процессах или выполняют вместе определенные функции. Это важно, так как многие белки и взаимодействия немечены, поэтому можно сделать вывод об их функции, если многие меченые белки для определенного находятся в одном кластере.
В отличие от типичных контролируемых задач машинного обучения, где помеченный набор данных может показывать число правильных группировок или нет, нет прецедента для хороших кластеризаций белков и их взаимодействия, гипотетически кластеризация, где все белки находятся в одном кластере, не уступает той, где все белки находятся в одном кластере (хотя в этом нет никакого информационного значения). Конечно, для расчета расстояний также нет векторов признаков, есть только двоичная информация о том, взаимодействует ли один белок с другим или нет, так что это довольно сложно.
Эта проблема является полностью исследовательской, и трудно понять, является ли кластеризация значительной или просто фиктивной.
В большинстве научных работ используются методы кластерного анализа, чтобы увидеть, насколько хороши кластеры и алгоритмы. то есть. устойчивы ли они к удалению краев или удалению узлов, кластерной корреляции и т. д. Я хотел бы посмотреть, есть ли какая-либо информация, которую можно получить с помощью протеиновых баз данных, например, ввести большое количество взаимодействий (из одного кластера) и посмотреть, помечен ли те имеют тенденцию быть вовлеченными в тот же самый метаболический процесс. Если в одном метаболическом процессе задействовано значительно большое количество белков, можно предположить, что немеченые белки могут участвовать в сходном процессе или функции или аналогичным образом могут быть частью белкового домена или нет.
Я только начал углубляться в биоинформатику и исследования в целом, так что есть очень высокая вероятность того, что это было сделано раньше, и я недостаточно широко осматривался. Если это так, я был бы благодарен за ссылки. Буду признателен за любую возможную помощь или идеи о том, как можно подумать об этой проблеме.
1 ответ
Если я понимаю ваш вопрос: вы хотели бы знать, выявляет ли ваша кластерная сеть взаимодействия белков биологически значимые белковые комплексы...
Я могу придумать три способа сделать это:
1) Использовать первичную исследовательскую литературу. Возьмите кластер и найдите Pubmed для каждого члена кластера и посмотрите, есть ли какие-либо отчеты о взаимодействии с другими членами кластера. Это будет трудоемким, но самым строгим.
2) Отправьте каждый кластер в анализ обогащения терминов GO (David, funcassociate и т. Д.) Или анализ Pathway (Kegg). Если кластер является "биологически" релевантным, он должен быть обогащен для конкретных терминов GO/Kegg. это будет работать, только если большинство ваших белков имеют аннотации.
3) Посмотрите на данные выражения. Биологические комплексы имеют тенденцию иметь коррелированные паттерны экспрессии генов. Там для выражения кластера должны коррелировать с ним члены, а не члены кластера.
Я думал о 4-м:
4) Найти гомологов в организме с богатой и глубокой базой данных аннотаций и найти там корреляции (дрожжи (S. cerevisiae или S. pombe*), муха (D. melanogaster), червь (C elegans), мышь и человек). иметь большие базы данных взаимодействия белков (например, Biogrid).
И 5-й:
5) Используйте генетические данные экрана. В этом случае данные генетического эпистаза будут иметь четкие связи внутри комплексов. Белки, которые находятся в одном комплексе, не будут иметь генетического взаимодействия. В то время как белки в отдельных / независимо действующих комплексах могут иметь генетический компонент взаимодействия. Посмотрите работу доктора Чарльза Буна (Университет Торонто) о том, как это можно смоделировать.
Последние мысли:
Небольшое знание предметной области поможет вам поверить в ваши результаты. Формируют ли хорошо известные / изученные комплексы кластеры? В этой области проделана большая работа, Pubmed станет вашим другом. Начните с Biogrid и работайте оттуда.
Удачи