PCA и T^2 Хотеллинга для доверительного интервала в R
Я сделал анализ основных компонентов и взял 2 первых основных компонента. Я сделал график своих очков, основываясь на счете 2 ПК. Я хотел бы добавить на этот график 95% доверительную область, соответствующую критерию T^2 Хотеллинга, чтобы определить точки, которые находятся вне эллипса (выбросы). Как это возможно в R? У вас есть пример?
Я бы сделал что-то вроде этого и обнаружил бы точки из эллипса:
1 ответ
В пакете pcaMethods есть функция simpleEllipse(x, y, alpha, len)
что будет делать это. Учитывая два некоррелированных вектора данных, он вернет эллипс, где оси масштабируются на основе дисперсии каждой оценки, и F-статистики.
Мы можем построить доверительный эллипс для PCA с vegan
или же ggbiplot
как показано ниже:
set.seed(1)
data <- matrix(rnorm(500), ncol=5) # some random data
data <- setNames(as.data.frame(rbind(data, matrix(runif(25, 5, 10), ncol=5))), LETTERS[1:5]) # add some outliers
class <- sample(c(0,3,6,8), 105, replace=TRUE) # 4 groups
library(vegan)
PC <- rda(data, scale=TRUE)
pca_scores <- scores(PC, choices=c(1,2))
plot(pca_scores$sites[,1], pca_scores$sites[,2],
pch=class, col=class, xlim=c(-2,2), ylim=c(-2,2))
arrows(0,0,pca_scores$species[,1],pca_scores$species[,2],lwd=1,length=0.2)
ordiellipse(PC,class,conf=0.95)
library(ggbiplot)
PC <- prcomp(data, scale = TRUE)
ggbiplot(PC, obs.scale = 1, var.scale = 1, groups = as.factor(class), ellipse = TRUE,
ellipse.prob = 0.95)