Преобразование данных TPM в счетчики чтения для Seurat

Я хотел бы провести анализ в R с Сёра, но для этого мне нужна матрица подсчета со счетчиками чтения. Однако данные, которые я хотел бы использовать, предоставляются в TPM, что не идеально для использования в качестве входных данных, поскольку я хотел бы сравнить с другими анализами, в которых использовались счетчики чтения.

Кто-нибудь знает, как преобразовать данные TPM в счетчики чтения?

Заранее спасибо!

1 ответ

Вам потребуется общее количество и длина гена (или транскрипта) для приблизительного значения этого преобразования. См. https://support.bioconductor.org/p/91218/ для обратной операции.

По этой ссылке:

You can create a TPM matrix by dividing each column of the counts matrix by some estimate of the gene length (again this is not ideal for the reasons stated above).

x <- counts.mat / gene.length

Then with this matrix x, you do the following:

tpm.mat <- t( t(x) * 1e6 / colSums(x) )

Such that the columns sum to 1 million.

colSums(x) будет счетчиком на образец, согласованным с генами в матрице TPM, и gene.length будет зависеть от модели гена, используемой для обобщения чтения.

Таким образом, вам может не повезти, и, вероятно, в любом случае было бы лучше использовать что-то вроде лосося или каллисто, чтобы получить матрицу подсчета из файлов fastq, если они доступны, на основе модели гена или транскрипции, которую вы использовали в данных, которые вы использовали. хочу сравнить это с.

Если у вас нет другого выбора, кроме использования данных TPM (на самом деле не рекомендуется), Сёра может работать и с этим - см. https://github.com/satijalab/seurat/issues/171.

Другие вопросы по тегам