Нужно объяснение на языке Stemmer of Solr

Я использую Nutch с Solr для разработки поисковой системы для арабских текстов. Мне нужно реализовать стеммер на моих арабских текстах, и пока я работал с Solr Stemmer, я обнаружил, что он обеспечивает эти два фильтра.

<filter class="solr.ArabicNormalizationFilterFactory"/>

<filter class="solr.ArabicStemFilterFactory"/>

Я попробовал их, но не понял, что они делают.. Так что, пожалуйста, кто-нибудь может мне помочь с некоторыми примерами??

и сделать эти два, сделайте это:

العملات связан с عملة

البسَاتِين ، بساتينكم связано с بستان

благодарю вас.

1 ответ

Решение

Вы можете найти некоторые подробности здесь: http://lucene.apache.org/core/3_6_0/api/contrib-analyzers/org/apache/lucene/analysis/ar/ArabicStemmer.html

Это говорит:

Стемминг определяется как:

  • Удаление приложенного определенного артикля, соединения и предлогов.
  • Обоснование общих суффиксов.
Другие вопросы по тегам