Сравнительная оценка иерархических кластеров документов?

Я провожу эксперимент, в котором я создаю несколько иерархических кластеров документов. Каждая кластеризация будет представлена ​​в виде дерева кластеров, где каждый кластер представляет собой подмножество документов из исходного корпуса, и кластеры образуют точное покрытие набора документов. Я рассматриваю сравнение машинно-генерируемых кластеров с искусственно созданными кластерами. Каков наилучший способ оценки кластеризации по отношению друг к другу или к золотому стандарту, созданному человеком? Я посмотрел на метрики сходства деревьев, но ни один из них, похоже, не работает для деревьев, где узлы - это наборы вещей.

0 ответов

Другие вопросы по тегам