Как DTsearch Tokenizer работает со специальным символом.( _ .: ')?

Я сравниваю результаты dtsearch и asticseach после индексации.

Я обнаружил одну проблему, когда вводил любой текст с помощью.(Точка),:(двоеточие),'(одинарный перевернутый) и _(подчеркивание) char.

Dtsearch будет разрывать слова с помощью этого специального символа. в то время как Elastic не ломается, поскольку он следует стандартным правилам анализатора Unicode.

НАПРИМЕР:

Эластичный поиск

input: "something.is:missing" 
output: "something.is:missing" 

DTSearch

input: "something.is:missing" 
output: "something"
    "is"
    "missing"

Я погуглил документ токенизатора dtsearch, но не получил нужную информацию для этого.

Кто-нибудь знает о токенайзере DTsearch, пожалуйста, помогите мне.

Спасибо,

0 ответов

Другие вопросы по тегам