Доверительный интервал кластера Жакара

Я надеюсь, что кто-нибудь даст мне совет о том, как получить доверительные интервалы из кластера Jaccard, используя R. У меня есть данные о видах из 1970-х и с сегодняшнего дня на четырех участках. Когда я запускаю следующий код, я получаю отличный график, который показывает, что один из моих современных сайтов ближе к историческому, чем другой сайт. Я уверен, что люди будут спрашивать о значимости. Я видел подобные доверительные интервалы на филогенетических деревьях, но я не уверен, как получить такие результаты. Я предполагаю, что я делаю это с помощью теста начальной загрузки, но я не уверен, как получить результаты от boot() или как поместить их в мой кластерный граф. Любой совет будет принята с благодарностью.

Мой код для создания кластера:

historicalwo <-read.csv("/users/Victoria/Desktop/Stat Documents/historicalwo.csv", 
row.names =   1)

 jaccard2 <- vegdist (historical, method = "jaccard")

 plot (hclust (jaccard2), hang = -1,main = "Sites clustered by Jaccard similarity",axes = FALSE,
 ylab = "")

затем я сделал.csv результатов jaccard с 3 столбцами, сайт 1, сайт 2 и индекс jaccard из двух сайтов.

jaccardboot <-read.csv ("/ users / Victoria / Desktop / Stat Documents / jaccardboot.csv", header = TRUE)

bs <- function(formula, data, indices) {
d <- data[indices,] 
fit <- lm(formula, data=d)
return(coef(fit)) } 

results <- boot(data=jaccardboot,statistic=bs,
            R=100, formula=site1~jaccard+site2)

Результаты

Я получаю: Ошибка при загрузке (data = jaccardboot, статистика = bs, R = 100, формула = site1 ~: количество заменяемых элементов не кратно длине замены. Дополнительно: было 50 или более предупреждений (используйте warnings() увидеть первые 50)

1 ответ

Решение

Через удачу я наткнулся на разумный ответ на свои вопросы. Сначала я перенес свои данные, а затем я использовал pvclust используя метод Уорда и бинарный как расстояние. Это моделирует индекс jaccard. Результаты не сгруппировались, как в моем предыдущем примере, но, по крайней мере, теперь я имею статистическую значимость. Если кто-нибудь знает, почему этот кластер может отличаться от моего кластера jaccard, я весь в ушах.

    swo <-read.csv("/users/Victoria/Desktop/Stat Documents/siteswo1.csv", header = TRUE, row.names = 1)
    result <- pvclust(swo, method.dist="binary", method.hclust="ward", nboot=1000)
    plot(result)
    pvrect(result, alpha=0.95)
Другие вопросы по тегам