Изменение списка стоп-слов
Я хотел бы настроить кластеры carrot2, чтобы избежать меток, которые не начинаются с предлогов - для русского языка довольно странно видеть слово в грамматическом (не номинативном) слове и не иметь предлога.
Кластеризация выполняется с использованием Apache Solr.
Примеры:
Минске ([in] Minsk, missing preposition В in the beginning).
Самом Деле ([in] fact, missing preposition На in the beginning).
Я пробовал две независимые вещи:
- настройте core/clustering/carrot2/stopwords.ru - и удалите предлоги в вопросах оттуда
- распакуйте carrot2-mini-3.9.0.jar, удалите записи с stopwords.ru и упакуйте обратно в банку.
Ничто из вышеперечисленного не влияет на метки кластера. Есть ли что-то очевидное, что можно попробовать? Или, может быть, изменить подход к настройке в целом?
Спасибо!
1 ответ
Удаление предлогов из файлов стоп-слов должно помочь. С измененными файлами стоп-слов предлоги все еще могут отсутствовать из-за статистики данных - если некоторые вхождения Минска имеют префикс "in", а другие нет, алгоритм может выбрать более короткую версию (без предлогов) как более представительный.
Метки в core/clustering/carrot2/stopwords.ru
должен иметь приоритет над метками, содержащимися в carrot2-mini-3.9.0.jar.
Когда дело доходит до алгоритма кластеризации Lingo, нет прямого способа напрямую повлиять на количество слов в метке, но вы можете попробовать увеличить усиление метки фразы и снизить порог усеченной метки.
Полный список параметров алгоритма кластеризации находится в документации Carrot2. Вы можете передавать переопределения параметров как часть запросов кластеризации результатов Solr.