Корреляция между титрованием in silico и наблюдаемой экспрессией в наборах микрочипов

В следующей публикации используется подход титрования для оценки возможных порогов для дифференциального анализа данных микрочипов. Насколько я понял, соответствующие авторы просто смешивают набор данных несколько раз с разными соотношениями между двумя выборочными группами для имитации эксперимента по титрованию, подобного эксперименту из пакета lumiBarnes Bioconductor.

Я хочу применить этот метод in silico, но я не уверен, возможно ли это или хорошая идея вообще. Даны две группы массивов с именами c1, c2, c3, c4 и d1, d2, d3, d4. Могу ли я выполнить подобный подход, смешивая уже полученные наборы данных в silico?

К примеру:

100: 0

c1,c2,c3,c4,d1,d2,d3,d4
c1,c2,c3,c4,c1,c2,c3,c4

75:25

c1,c2,c3,c4,d1,d2,d3,d4
c1,c2,c3,c4,c1,c2,d3,d4

50:50

c1,c2,c3,c4,d1,d2,d3,d4
c1,c2,c3,c4,d1,d2,d3,d4

...

Ссылки: Du P, Zhang X, Huang CC и др. Сравнение методов бета-значений и М-значений для количественного определения уровней метилирования с помощью анализа микрочипов. БМК Биоинформатика. 2010;11:587. DOI:10,1186 / 1471-2105-11-587. http://www.ncbi.nlm.nih.gov/pmc/articles/PMC3012676/

LumiBarnes http://www.bioconductor.org/packages/release/data/experiment/html/lumiBarnes.html

1 ответ

Я хотел бы подойти к этому в титровании кремния путем масштабирования / преобразования сигнала матрицы (интенсивности зондов) на желаемые отношения. Так что концептуально что-то вроде следующего:

группа1: с1, с2, с3, с4
группа 2: d1, d2, d3, d4

100:0
1 * группа1: 0* группа2

75:25
0,75* группа1: 0,25* группа2

50:50
группа1: группа2

25:75 0,25* группа1: 0,75* группа2

0: 100
0 * группа1: 1* группа2

Теперь мои мысли / предостережения о процессе:

1) Масштабирование интенсивностей, скорее всего, не будет представлять шум в массиве надлежащим образом (график Think MA). И в зависимости от того, как вы выполняете масштабирование, вам нужно будет убедиться, что все интенсивности соответствуют спецификациям обнаружения, например, сканер массива может насыщаться при 2^16, поэтому ни одна из ваших интенсивностей не должна превышать это значение. Аналогично, все зонды, вероятно, имеют какую-то минимальную интенсивность (сродни автофлуоресценции). Я ожидаю, что распределение интенсивностей должно не только сдвигаться ниже, но и сжиматься из-за некоторого минимума в процессе обнаружения массива.

2) Для 100:0 вы не захотите устанавливать интенсивность на 0, а либо случайным образом отобрать нижние 5-10% интенсивностей зонда, либо отобрать темные контрольные точки на массиве для имитации шума массива.

3) Было бы много способов достичь соотношения 75:25 (3*g1: 1*g2, 1*g1: 0.333*g2 и т. Д.). Я не уверен, что было бы лучше, если бы я проводил этот эксперимент, я бы избежал преобразования 3:1, поскольку оно может "насытить" многие зонды (см. Выше).

3) Масштабирование / преобразование интенсивностей массива может не работать вообще, потому что настройки инструмента могут в некоторой степени преодолеть различия титрования. Например, если сигнал в массиве низкий, это можно устранить путем настройки (увеличения) усиления детектора на сканере. Вообще говоря, при сканировании массивов вы стремитесь к насыщению нескольких процентов точек.

Причина, по которой я предлагаю этот метод, основана на статье, на которую вы ссылаетесь. Смотря на M&M, то, что я предложил, является более репрезентативным для того, что они делали на стенде, то есть в смеси ДНК 75:25, вы ожидаете, что сигнал будет в 3 раза выше в одном образце по сравнению с другим. Изменение номера выборки в группах только изменит способ вычисления статистики, потому что вы меняете df. И в некоторых случаях (когда в группе только одно и то же) вычисление статистики может закончиться неудачей, потому что не будет никакого способа получить хорошую оценку дисперсии для каждого исследования.

Мне было бы интересно узнать, работает ли это, звучит как забавное / интересное упражнение.

Удачи

Другие вопросы по тегам