Как DTsearch Tokenizer работает со специальным символом.( _ .: ')?
Я сравниваю результаты dtsearch и asticseach после индексации.
Я обнаружил одну проблему, когда вводил любой текст с помощью.(Точка),:(двоеточие),'(одинарный перевернутый) и _(подчеркивание) char.
Dtsearch будет разрывать слова с помощью этого специального символа. в то время как Elastic не ломается, поскольку он следует стандартным правилам анализатора Unicode.
НАПРИМЕР:
Эластичный поиск
input: "something.is:missing"
output: "something.is:missing"
DTSearch
input: "something.is:missing"
output: "something"
"is"
"missing"
Я погуглил документ токенизатора dtsearch, но не получил нужную информацию для этого.
Кто-нибудь знает о токенайзере DTsearch, пожалуйста, помогите мне.
Спасибо,