Влияние фильтров на результаты поиска в solr
Когда я запрашиваю "элегантность" в solr, я получаю результаты и для "элегантности".
Я использовал эти фильтры для анализа индекса
WhitespaceTokenizerFactory
StopFilterFactory
WordDelimiterFilterFactory
LowerCaseFilterFactory
SynonymFilterFactory
EnglishPorterFilterFactory
RemoveDuplicatesTokenFilterFactory
ReversedWildcardFilterFactory
и для анализа запросов:
WhitespaceTokenizerFactory
SynonymFilterFactory
StopFilterFactory
WordDelimiterFilterFactory
LowerCaseFilterFactory
EnglishPorterFilterFactory
RemoveDuplicatesTokenFilterFactory
Я хочу знать, какой фильтр влияет на мои результаты поиска.
1 ответ
EnglishPorterFilterFactory
Вот краткий ответ;)
Еще немного информации:
"Английский Портер" означает "английский портер". И элегантность, и элегантность имеют в соответствии со стеммером (который является эвристическим словом построитель корней) один и тот же стебель.
Вы можете проверить это онлайн, например, здесь. По сути, вы увидите, что "элегантный муравей " и "элегантный анс " связаны с одним и тем же стеблем.
Из источника Solr:
public void inform(ResourceLoader loader) {
String wordFiles = args.get(PROTECTED_TOKENS);
if (wordFiles != null) {
try {
Именно здесь в игру вступает файл protwords:
File protectedWordFiles = new File(wordFiles);
if (protectedWordFiles.exists()) {
List<String> wlist = loader.getLines(wordFiles);
//This cast is safe in Lucene
protectedWords = new CharArraySet(wlist, false);//No need to go through StopFilter as before, since it just uses a List internally
} else {
List<String> files = StrUtils
.splitFileNames(wordFiles);
for (String file : files) {
List<String> wlist = loader.getLines(file
.trim());
if (protectedWords == null)
protectedWords = new CharArraySet(wlist,
false);
else
protectedWords.addAll(wlist);
}
}
} catch (IOException e) {
throw new RuntimeException(e);
}
}
}
Это та часть, которая влияет на ствол. Там вы видите вызов библиотеки снежного кома
public EnglishPorterFilter create(TokenStream input) {
return new EnglishPorterFilter(input, protectedWords);
}
}
/**
* English Porter2 filter that doesn't use reflection to
* adapt lucene to the snowball stemmer code.
*/
@Deprecated
class EnglishPorterFilter extends SnowballPorterFilter {
public EnglishPorterFilter(TokenStream source,
CharArraySet protWords) {
super (source, new org.tartarus.snowball.ext.EnglishStemmer(),
protWords);
}
}