Кластеризация текстур с помощью Rapidminer

У меня есть облачные теги A,B,C. каждый облачный тег состоит из сущностей (слов) e,f,g ...

Я хочу найти хорошие слова, которые разделяют облачные теги на (в основном) независимые кластеры. как например:

Слово e с облачным тегом A и B, но не с C ... так что e - хороший разделитель для получения 2 кластеров.

Теперь есть 100 000 облачных тегов и 1 000 000 слов. и я хочу сделать то же самое, чтобы получить как K кластер. Облачный тег может принадлежать двум кластерам, что не так важно.

Я знаю k-means, но я не знаю, как преобразовать данные в числовые многомерные данные. Насколько я знаю, kmeans нужны числовые точки для создания кластеров.

Я также хотел бы использовать быстрый майнер в качестве программного обеспечения, но любой алгоритм, программное обеспечение было бы весьма полезным в качестве основного ввода.

Заранее спасибо.

1 ответ

Решение

Вы не описываете кластеризацию.

Но выбор функции (слова) для классификации "облачных тегов".

Посмотрите на деревья решений и метрики, используемые там, чтобы определить хорошие функции для разделения.

Другие вопросы по тегам