Доверительный интервал кластера Жакара
Я надеюсь, что кто-нибудь даст мне совет о том, как получить доверительные интервалы из кластера Jaccard, используя R. У меня есть данные о видах из 1970-х и с сегодняшнего дня на четырех участках. Когда я запускаю следующий код, я получаю отличный график, который показывает, что один из моих современных сайтов ближе к историческому, чем другой сайт. Я уверен, что люди будут спрашивать о значимости. Я видел подобные доверительные интервалы на филогенетических деревьях, но я не уверен, как получить такие результаты. Я предполагаю, что я делаю это с помощью теста начальной загрузки, но я не уверен, как получить результаты от boot() или как поместить их в мой кластерный граф. Любой совет будет принята с благодарностью.
Мой код для создания кластера:
historicalwo <-read.csv("/users/Victoria/Desktop/Stat Documents/historicalwo.csv",
row.names = 1)
jaccard2 <- vegdist (historical, method = "jaccard")
plot (hclust (jaccard2), hang = -1,main = "Sites clustered by Jaccard similarity",axes = FALSE,
ylab = "")
затем я сделал.csv результатов jaccard с 3 столбцами, сайт 1, сайт 2 и индекс jaccard из двух сайтов.
jaccardboot <-read.csv ("/ users / Victoria / Desktop / Stat Documents / jaccardboot.csv", header = TRUE)
bs <- function(formula, data, indices) {
d <- data[indices,]
fit <- lm(formula, data=d)
return(coef(fit)) }
results <- boot(data=jaccardboot,statistic=bs,
R=100, formula=site1~jaccard+site2)
Результаты
Я получаю: Ошибка при загрузке (data = jaccardboot, статистика = bs, R = 100, формула = site1 ~: количество заменяемых элементов не кратно длине замены. Дополнительно: было 50 или более предупреждений (используйте warnings() увидеть первые 50)
1 ответ
Через удачу я наткнулся на разумный ответ на свои вопросы. Сначала я перенес свои данные, а затем я использовал pvclust
используя метод Уорда и бинарный как расстояние. Это моделирует индекс jaccard. Результаты не сгруппировались, как в моем предыдущем примере, но, по крайней мере, теперь я имею статистическую значимость. Если кто-нибудь знает, почему этот кластер может отличаться от моего кластера jaccard, я весь в ушах.
swo <-read.csv("/users/Victoria/Desktop/Stat Documents/siteswo1.csv", header = TRUE, row.names = 1)
result <- pvclust(swo, method.dist="binary", method.hclust="ward", nboot=1000)
plot(result)
pvrect(result, alpha=0.95)