Подготовить дату для кластеризации в R

Для моей диссертации я должен кластеризовать набор данных оптовых клиентов репозитория UCI (440 наблюдений и 8 переменных) с kmeans и mclust в R. К сожалению, у меня нет опыта работы с R. Прежде всего я удалил переменные Channel и Region. С помощью метода локтя я понял, что 5 центров должны быть в порядке.

k.max <- 15
wss <- sapply(1:k.max, 
function(k){kmeans(data, k, nstart=50,iter.max = 15)$tot.withinss})
plot(1:k.max, wss,
type="b", pch = 19, frame = FALSE, 
xlab="Anzahl  Cluster",
ylab="Summe der Quadrate")

Поэтому у меня есть несколько вопросов: следует ли мне масштабировать данные, использовать ящики с диаграммами для выявления выбросов или, может быть, и то, и другое? Как можно удалить выбросы из моего набора данных? Какой лучший способ визуализировать результаты?

0 ответов

Другие вопросы по тегам