Кластеры, произведенные Solr и Carrot2 Workbench, не согласованы

Я пытаюсь настроить кластеризацию в Solr, используя Carrot2 Workbench. В то время как Workbench дает хорошие результаты, Solr отказывается это делать, и его кластеры сильно отличаются.

Мой поток:

  • Подготовьте набор идентификаторов документов и запросите их только (fq)
  • Настройте и экспортируйте XML-конфигурацию из Workbench
  • Перезапустите Solr, чтобы убедиться, что все подобрано
  • Повторите тот же запрос (я также удостоверился, что он точно такой же, как и из Wrokbench, проверив журналы Solr)
  • Сравните кластеры... И это тот момент, когда я потерялся. Они совершенно разные даже по структуре. Workbench создает более длинные и сложные ярлыки, а Solr - очень простые.

Я пытался настроить параметры как из XML, так и из запросов, но с очень небольшим эффектом. Однако достаточно, чтобы увидеть, что конфиги подбираются.

Еще одна вещь, которую я проверил, была инструментом Carrto2 CLI. Я экспортировал данные из Solr в XML и использовал CLI вместе с конфигурацией, которую я экспортировал из Workbench, для создания кластеров, а CLI соответствует Workbench.

Это оставляет Solr странным. Я использую Carrot2 v3.15.1 и Solr 7.2.1

Что мне не хватает? Почему Solr производит разные кластеры из одних и тех же данных и конфигурации?

0 ответов

Другие вопросы по тегам