SOLR Специальные символы и смайлики

Я хочу индексировать текстовые данные, которые содержат специальные символы, такие как (символы валюты) и смайлики. В настоящее время я использую следующий код для индексации этих данных: <fieldTypename="text"class="solr.TextField"> <analyzer> <tokenizerclass="solr.WhitespaceTokenizerFactory"/> <filterclass="solr.LowerCaseFilterFactory"/> <filterclass="solr.KeywordRepeatFilterFactory"/> <filterclass="solr.StopFilterFactory"words="stopwords.txt" ignoreCase="true"/> </analyzer>
Но при получении данных я вижу, что все специальные символы и смайлики и испорчены, например,
Debtof1,590.79settledfor436.00

Пожалуйста, предложите, что можно сделать здесь.

Поток приложений: данные сначала сохраняются в HBASE, а с индексаторами в реальном времени они обновляются до SOLR.

CDH Ver: 5.4.5 SOLR Ver: 4.10.3 HBASE VEer: 1.0.0

1 ответ

Решение

Я решил это, преобразовав смайлики в HTMLHex, а затем сохранив их в SOLR. В SOLR теперь я вижу, что шестнадцатеричный код не поврежден и может быть преобразован обратно в смайлики.
Используемая библиотека:
Lib для конвертации смайликов в Hex emoji-java

Другие вопросы по тегам