Кластеризация текстур с помощью Rapidminer
У меня есть облачные теги A,B,C. каждый облачный тег состоит из сущностей (слов) e,f,g ...
Я хочу найти хорошие слова, которые разделяют облачные теги на (в основном) независимые кластеры. как например:
Слово e с облачным тегом A и B, но не с C ... так что e - хороший разделитель для получения 2 кластеров.
Теперь есть 100 000 облачных тегов и 1 000 000 слов. и я хочу сделать то же самое, чтобы получить как K кластер. Облачный тег может принадлежать двум кластерам, что не так важно.
Я знаю k-means, но я не знаю, как преобразовать данные в числовые многомерные данные. Насколько я знаю, kmeans нужны числовые точки для создания кластеров.
Я также хотел бы использовать быстрый майнер в качестве программного обеспечения, но любой алгоритм, программное обеспечение было бы весьма полезным в качестве основного ввода.
Заранее спасибо.
1 ответ
Вы не описываете кластеризацию.
Но выбор функции (слова) для классификации "облачных тегов".
Посмотрите на деревья решений и метрики, используемые там, чтобы определить хорошие функции для разделения.