Преобразование данных TPM в счетчики чтения для Seurat

Question

Преобразование данных TPM в счетчики чтения для Seurat

Я хотел бы провести анализ в R с Сёра, но для этого мне нужна матрица подсчета со счетчиками чтения. Однако данные, которые я хотел бы использовать, предоставляются в TPM, что не идеально для использования в качестве входных данных, поскольку я хотел бы сравнить с другими анализами, в которых использовались счетчики чтения.

Кто-нибудь знает, как преобразовать данные TPM в счетчики чтения?

Заранее спасибо!

1

r seurat

Источник

user13038100 10 мар '20 в 12:45

1 ответ

Другие вопросы по тегам r seurat

user12728748 10 мар '20 в 19:05 2020-03-10 19:05 · Answer 1 · 2020-03-10 19:05

Вам потребуется общее количество и длина гена (или транскрипта) для приблизительного значения этого преобразования. См. https://support.bioconductor.org/p/91218/ для обратной операции.

По этой ссылке:

You can create a TPM matrix by dividing each column of the counts matrix by some estimate of the gene length (again this is not ideal for the reasons stated above).

x <- counts.mat / gene.length

Then with this matrix x, you do the following:

tpm.mat <- t( t(x) * 1e6 / colSums(x) )

Such that the columns sum to 1 million.

colSums(x) будет счетчиком на образец, согласованным с генами в матрице TPM, и gene.length будет зависеть от модели гена, используемой для обобщения чтения.

Таким образом, вам может не повезти, и, вероятно, в любом случае было бы лучше использовать что-то вроде лосося или каллисто, чтобы получить матрицу подсчета из файлов fastq, если они доступны, на основе модели гена или транскрипции, которую вы использовали в данных, которые вы использовали. хочу сравнить это с.

Если у вас нет другого выбора, кроме использования данных TPM (на самом деле не рекомендуется), Сёра может работать и с этим - см. https://github.com/satijalab/seurat/issues/171.