Zend Lucene - символизирует шведские символы

Я использую Zend Lucene для индексирования шведских текстов. Проблема в том, что lucene использует токены для слов на шведском языке. Например, слово "världens" становится двумя словами "v" и "ldens" в индексе.

Есть ли способ добавить символы, которые Zend Lucene должен принимать, а не токенизировать?

2 ответа

Решение

Используйте анализатор текста, совместимый с UTF-8, вместо текстового анализатора по умолчанию для токенизации. обратите внимание, что для этого требуется, чтобы PHP PCRE (Perl-совместимые регулярные выражения) компилировалась с поддержкой UTF-8 (по умолчанию, если вы используете библиотеку PCRE в комплекте с PHP, но, возможно, не включена, если вы используете общую библиотеку). для чувствительных к регистру версий анализаторов, совместимых с UTF-8, также необходимо включить расширение mbstring.

Использование анализаторов. Посмотрите документы по анализу текста, используя utf8 и документы по написанию собственного анализатора. Я рекомендую вам просто использовать анализатор UTF-8.

Другие вопросы по тегам