Apache Lucene инвертированный индекс

Question

Индекс Lucene использует tf-idf в качестве весов? Можно ли определить собственную статистику и веса для каждого документа и "вставить" их в Lucene?

search lucene inverted-index

Источник

user1575774 10 июл '13 в 05:17

2 ответа

Другие вопросы по тегам search lucene inverted-index

user1628375 10 июл '13 в 07:25 2013-07-10 07:25 · Answer 1 · 2013-07-10 07:25

Да, алгоритм оценки по умолчанию включает tf-idf и полностью задокументирован в документации TFIDFSiilarity.

Существует несколько способов настройки скоринга документов.

Самым простым и наиболее распространенным является добавление повышения либо в поле во время индекса, либо в условие запроса при запросе.
Многие типы запросов изменяют оценку, используемую для этого запроса. Примеры включают ConstantScoreQuery и DisjunctionMaxQuery.
Similarity вы используете определяет алгоритм оценки. Вы можете выбрать другой (например, BM25Shoity).
Вы можете реализовать свой собственный SimilarityОбычно путем расширения реализации более высокого уровня, такой как DefaultSimilarity, TFIDFSimilarity, или же SimilarityBase

user1827561 10 июл '13 в 06:46 2013-07-10 06:46 · Answer 2 · 2013-07-10 06:46

Просто пройдите этот пример. Это может помочь вам узнать, как вы можете вносить пользовательские изменения в процесс индексирования

Источник

user1827561 10 июл '13 в 06:46