Zend Lucene - символизирует шведские символы

Question

Zend Lucene - символизирует шведские символы

Я использую Zend Lucene для индексирования шведских текстов. Проблема в том, что lucene использует токены для слов на шведском языке. Например, слово "världens" становится двумя словами "v" и "ldens" в индексе.

Есть ли способ добавить символы, которые Zend Lucene должен принимать, а не токенизировать?

4

zend-framework lucene zend-search-lucene zend-lucene

Источник

user136391 30 дек '09 в 14:11

2 ответа

Решение

Использование анализаторов. Посмотрите документы по анализу текста, используя utf8 и документы по написанию собственного анализатора. Я рекомендую вам просто использовать анализатор UTF-8.

2

Источник

user118145 30 дек '09 в 14:35

Другие вопросы по тегам zend-framework lucene zend-search-lucene zend-lucene

user68939 30 дек '09 в 14:36 2009-12-30 14:36 · Accepted Answer · 2009-12-30 14:36

Используйте анализатор текста, совместимый с UTF-8, вместо текстового анализатора по умолчанию для токенизации. обратите внимание, что для этого требуется, чтобы PHP PCRE (Perl-совместимые регулярные выражения) компилировалась с поддержкой UTF-8 (по умолчанию, если вы используете библиотеку PCRE в комплекте с PHP, но, возможно, не включена, если вы используете общую библиотеку). для чувствительных к регистру версий анализаторов, совместимых с UTF-8, также необходимо включить расширение mbstring.