Кластеры, произведенные Solr и Carrot2 Workbench, не согласованы
Я пытаюсь настроить кластеризацию в Solr, используя Carrot2 Workbench. В то время как Workbench дает хорошие результаты, Solr отказывается это делать, и его кластеры сильно отличаются.
Мой поток:
- Подготовьте набор идентификаторов документов и запросите их только (fq)
- Настройте и экспортируйте XML-конфигурацию из Workbench
- Перезапустите Solr, чтобы убедиться, что все подобрано
- Повторите тот же запрос (я также удостоверился, что он точно такой же, как и из Wrokbench, проверив журналы Solr)
- Сравните кластеры... И это тот момент, когда я потерялся. Они совершенно разные даже по структуре. Workbench создает более длинные и сложные ярлыки, а Solr - очень простые.
Я пытался настроить параметры как из XML, так и из запросов, но с очень небольшим эффектом. Однако достаточно, чтобы увидеть, что конфиги подбираются.
Еще одна вещь, которую я проверил, была инструментом Carrto2 CLI. Я экспортировал данные из Solr в XML и использовал CLI вместе с конфигурацией, которую я экспортировал из Workbench, для создания кластеров, а CLI соответствует Workbench.
Это оставляет Solr странным. Я использую Carrot2 v3.15.1 и Solr 7.2.1
Что мне не хватает? Почему Solr производит разные кластеры из одних и тех же данных и конфигурации?