SOLR Специальные символы и смайлики
Я хочу индексировать текстовые данные, которые содержат специальные символы, такие как (символы валюты) и смайлики. В настоящее время я использую следующий код для индексации этих данных: <fieldTypename="text"class="solr.TextField">
<analyzer>
<tokenizerclass="solr.WhitespaceTokenizerFactory"/>
<filterclass="solr.LowerCaseFilterFactory"/>
<filterclass="solr.KeywordRepeatFilterFactory"/>
<filterclass="solr.StopFilterFactory"words="stopwords.txt"
ignoreCase="true"/>
</analyzer>
Но при получении данных я вижу, что все специальные символы и смайлики и испорчены, например,
Debtof1,590.79settledfor436.00
Пожалуйста, предложите, что можно сделать здесь.
Поток приложений: данные сначала сохраняются в HBASE, а с индексаторами в реальном времени они обновляются до SOLR.
CDH Ver: 5.4.5 SOLR Ver: 4.10.3 HBASE VEer: 1.0.0
1 ответ
Я решил это, преобразовав смайлики в HTMLHex, а затем сохранив их в SOLR. В SOLR теперь я вижу, что шестнадцатеричный код не поврежден и может быть преобразован обратно в смайлики.
Используемая библиотека:
Lib для конвертации смайликов в Hex emoji-java