Изменение списка стоп-слов

Я хотел бы настроить кластеры carrot2, чтобы избежать меток, которые не начинаются с предлогов - для русского языка довольно странно видеть слово в грамматическом (не номинативном) слове и не иметь предлога.

Кластеризация выполняется с использованием Apache Solr.

Примеры:

Минске ([in] Minsk, missing preposition В in the beginning).
Самом Деле ([in] fact, missing preposition На in the beginning).

Я пробовал две независимые вещи:

  1. настройте core/clustering/carrot2/stopwords.ru - и удалите предлоги в вопросах оттуда
  2. распакуйте carrot2-mini-3.9.0.jar, удалите записи с stopwords.ru и упакуйте обратно в банку.

Ничто из вышеперечисленного не влияет на метки кластера. Есть ли что-то очевидное, что можно попробовать? Или, может быть, изменить подход к настройке в целом?

Спасибо!

1 ответ

Решение

Удаление предлогов из файлов стоп-слов должно помочь. С измененными файлами стоп-слов предлоги все еще могут отсутствовать из-за статистики данных - если некоторые вхождения Минска имеют префикс "in", а другие нет, алгоритм может выбрать более короткую версию (без предлогов) как более представительный.

Метки в core/clustering/carrot2/stopwords.ru должен иметь приоритет над метками, содержащимися в carrot2-mini-3.9.0.jar.

Когда дело доходит до алгоритма кластеризации Lingo, нет прямого способа напрямую повлиять на количество слов в метке, но вы можете попробовать увеличить усиление метки фразы и снизить порог усеченной метки.

Полный список параметров алгоритма кластеризации находится в документации Carrot2. Вы можете передавать переопределения параметров как часть запросов кластеризации результатов Solr.

Другие вопросы по тегам