Где я могу скачать данные генной экспрессии?
Я хотел загрузить данные по экспрессии генов, полученные из экспериментов с микрочипами. я не знаю слишком много об этом предмете, но, как я понимаю, строки часто соответствуют генам, а столбцы соответствуют образцам. в идеале я ожидаю матрицу данных по экспрессии генов.
Я искал в Интернете, и, хотя может показаться, что есть много мест для загрузки таких данных, когда я действительно загружаю данные, я не получаю матрицу экспрессии генов. Может кто-нибудь, пожалуйста, дайте мне знать, если есть место или как загрузить данные генной экспрессии в формате, который я ожидаю выше?
любая помощь приветствуется.
2 ответа
Если вы посмотрите, например, на эту запись в омнибусе выражения гена, один из форматов файлов - "TXT" и содержит матрицу, которую вы запрашиваете после некоторых метаданных.
В принципе, данные микрочипов могут быть выражены (прошу прощения за каламбур) в виде матрицы с образцами в виде столбцов и строк в виде генов. На практике гораздо сложнее получить такое представление для необработанных данных эксперимента. Если вы просто получаете предварительно обработанный набор данных, у вас мало гарантий, что необработанные данные были обработаны таким образом, чтобы их можно было сравнить с другими экспериментами или чтобы исходные исходные данные были достаточно высокого качества.
Вам также понадобятся высококачественные метаданные, чтобы получить какое-либо значение из матрицы данных. Каковы были биологические условия и источники, из которых были получены образцы? Каким генам соответствуют зонды на конкретном используемом массиве? (Обратите внимание, что 9890_at - это "идентификатор набора зондов", уникальный идентификатор молекулярного зонда определенной конструкции последовательности, который затем необходимо сопоставить с геном, разные зонды для одного и того же гена не дадут абсолютно одинаковый ответ.)
Поэтому общедоступные базы данных микромассивов предоставляют много дополнительной информации в дополнение к обработанной матрице данных. В дополнение к уже упомянутому GEO, я бы порекомендовал ArrayExpress, который, по моему мнению, имеет лучший интерфейс поиска.
Инструментом выбора для работы с данными микрочипов для многих является набор программного обеспечения http://www.bioconductor.org/ для языка статистического программирования R.
Bioconductor предоставляет API для загрузки необработанных данных с сопровождающими метаданными из обоих репозиториев, см. Пакет GEO bioc и пакет ArrayExpress bioc.
Оба пакета, как и большинство программных продуктов для биокондуктора, поставляются с отличными "виньетками", которые представляют программное обеспечение: GEO bioc vignette и Arrayexpress bioc vignette
Эти виньетки должны также дать вам примеры получения необработанных данных и получения "Esets" (наборов выражений) из необработанных данных. В этот момент вы можете получить доступ к матрице экспрессии гена в объекте Eset биокондуктора, и у вас есть объект и API для опроса необходимых метаданных.
Обратите внимание, что существуют разные типы микрочипов. Я бы порекомендовал начать с данных из массивов Affymetrix, так как они имеют, вероятно, самые простые API анализа.