Сравнительная оценка иерархических кластеров документов?
Я провожу эксперимент, в котором я создаю несколько иерархических кластеров документов. Каждая кластеризация будет представлена в виде дерева кластеров, где каждый кластер представляет собой подмножество документов из исходного корпуса, и кластеры образуют точное покрытие набора документов. Я рассматриваю сравнение машинно-генерируемых кластеров с искусственно созданными кластерами. Каков наилучший способ оценки кластеризации по отношению друг к другу или к золотому стандарту, созданному человеком? Я посмотрел на метрики сходства деревьев, но ни один из них, похоже, не работает для деревьев, где узлы - это наборы вещей.