Solr японский токенизатор не работает для катакана

Question

Solr японский токенизатор не работает для катакана

Я использую solr-6.2.0 и filedType: text_ja .
Я столкнулся с проблемой японского токенизатора, его правильного токенизации
ドラゴンボールヒーロー
↓

"ドラゴン" "ドラゴンボールヒー" "" "ール" "ヒーロー"

Но это не в состоянии токенизировать ズ, ゴンンールヒーローズズ
ドラゴンボールヒーローズ
↓
"ドラゴン" "ドラゴンボールヒー" "" "ボ" ルヒーローズ "

Следовательно, поиск с помощью ドラゴンボー hit в последнем случае не срабатывает.

Кроме того, он не разделяет ドィズニーランド на два слова.

-1

search solr lucene tokenize solr-schema

Источник

user6407184 01 мар '17 в 02:51

2 ответа

Решение

Во-первых, я совершенно уверен, что он работает как задумано. Изучение того, как работает морфологический анализатор Kuromoji, вероятно, было бы лучшим способом лучше понять его правила и обоснование.

Есть несколько вещей, которые вы можете попробовать. Вы можете положить японский анализатор в EXTENDED, вместо SEARCH режим, который должен дать вам значительно более слабое соответствие (хотя, скорее всего, за счет введения большего количества ложных срабатываний, конечно):

Analyzer analyzer = new JapaneseAnalyzer(
        null, 
        JapaneseTokenizer.Mode.EXTENDED, 
        JapaneseAnalyzer.getDefaultStopSet(), 
        JapaneseAnalyzer.getDefaultStopTags()
        );

Или вы можете попробовать использовать CJKAnalyzer.

(Кстати, EnglishAnalyzer также не разделяет "Диснейленд" на два токена)

1

Источник

user1628375 02 мар '17 в 22:15

Другие вопросы по тегам search solr lucene tokenize solr-schema

user6407184 24 окт '17 в 03:44 2017-10-24 03:44 · Accepted Answer · 2017-10-24 03:44

Я смог решить эту проблему с помощью Lu Toceizer от Lucene-Gosen,
и составление ipadic словаря с пользовательскими правилами и весами слов.

0

Источник

user6407184 24 окт '17 в 03:44