Преобразование данных TPM в счетчики чтения для Seurat
Я хотел бы провести анализ в R с Сёра, но для этого мне нужна матрица подсчета со счетчиками чтения. Однако данные, которые я хотел бы использовать, предоставляются в TPM, что не идеально для использования в качестве входных данных, поскольку я хотел бы сравнить с другими анализами, в которых использовались счетчики чтения.
Кто-нибудь знает, как преобразовать данные TPM в счетчики чтения?
Заранее спасибо!
1 ответ
Вам потребуется общее количество и длина гена (или транскрипта) для приблизительного значения этого преобразования. См. https://support.bioconductor.org/p/91218/ для обратной операции.
По этой ссылке:
You can create a TPM matrix by dividing each column of the counts matrix by some estimate of the gene length (again this is not ideal for the reasons stated above).
x <- counts.mat / gene.length
Then with this matrix x, you do the following:
tpm.mat <- t( t(x) * 1e6 / colSums(x) )
Such that the columns sum to 1 million.
colSums(x)
будет счетчиком на образец, согласованным с генами в матрице TPM, и gene.length
будет зависеть от модели гена, используемой для обобщения чтения.
Таким образом, вам может не повезти, и, вероятно, в любом случае было бы лучше использовать что-то вроде лосося или каллисто, чтобы получить матрицу подсчета из файлов fastq, если они доступны, на основе модели гена или транскрипции, которую вы использовали в данных, которые вы использовали. хочу сравнить это с.
Если у вас нет другого выбора, кроме использования данных TPM (на самом деле не рекомендуется), Сёра может работать и с этим - см. https://github.com/satijalab/seurat/issues/171.