Порядковые данные кластера

Я хочу сделать кластеризацию моих данных (kmeans или hclust) на языке R (кодирование). Мои данные являются порядковыми, что означает, что данные представляют собой шкалу Лайкерта для измерения причин эскалации затрат (у меня есть 41 причина "переменных"), которые масштабируются от 1 до 5, что 1 не влияет на 5 основных эффектов (у меня около 160 наблюдения "кто ранжирует причины")... любая помощь в том, как кластеризовать причину, основанную на наблюдениях... я должен преобразовать шкалу в процент или z-оценку перед кластеризацией или любой другой вещью, которая помогает...... Мне действительно нужна твоя помощь!! вот данные для игры с https://docs.google.com/spreadsheet/ccc?key=0AlrR2eXjV8nXdGtLdlYzVk01cE96Rzg2NzRpbEZjUFE&usp=sharing

Я хочу сгруппировать переменные (столбцы) с точки зрения сходства в наблюдениях... Я следую коду в statmethods.net/advstats/cluster.html; но я не мог кластеризовать переменные (столбцы) с точки зрения сходства наблюдений в наблюдениях, а также я слежу за работой на mattpeeples.net/kmeans.html#help; но я не знаю, почему он конвертирует данные в проценты, а затем стандартизирует Z-показатель.

2 ответа

Решение

Мне не ясно, хотите ли вы сгруппировать строки (наблюдения) с точки зрения сходства переменных или сгруппировать переменные (столбцы) с точки зрения сходства в наблюдениях?

Во всяком случае, см. Кластер пакетов. Это рекомендуемый пакет, который поставляется со всеми установками R.

Читать ?daisy для деталей того, что сделано с порядковыми данными. Этот показатель может использоваться в таких функциях, как agnes (для иерархической кластеризации) или pam (для разбиения на медоиды, более надежная версия k- средних).

По умолчанию они группируют строки / наблюдения. Просто перенесите объект данных, используя t() если вы хотите кластеризовать столбцы (переменные). Хотя это может испортить данные в зависимости от того, как вы их сохранили.

Преобразование данных в проценты называется нормализацией данных, поэтому все переменные находятся в диапазоне от 0 до 1.

Если данные не нормализованы, вы рискуете склониться к измерениям с большими значениями

Другие вопросы по тегам