Банановая панель инструментов для Solr неправильно маркирует названия локаций
Я использую панель бананов для создания панели не временных рядов для моих данных, проиндексированных solr. "location
"поле в индексированных данных не отображается правильно в виджете фасетов банановой панели с такими именами, как"San Francisco
","New York
"показывается как"San
" а также "Francisco
" а также "New
" а также "York
".
Однако при перекрестной проверке результатов моего Solr Query эти поля правильно отображаются как единое целое "Сан-Франциско" и "Нью-Йорк".
В файле Solr файлmanaged-schema.xml содержит следующие записи:
<field name="content" type="opennlp-en-tokenization" indexed="true" stored="true" multiValued="true"/>
<field name="person" type="text_general" indexed="true" stored="true" multiValued="true"/>
<field name="organization" type="text_general" indexed="true" stored="true" multiValued="true"/>
<field name="location" type="text_general" indexed="true" stored="true" multiValued="true"/>
Есть идеи, где я могу пойти не так?
Банановая панель инструментов с именами локаций, имеющими пробел, неправильно маркированный как два разных места
Панель инструментов Solr с именами локаций, имеющими пространство, правильно отображаемое как единое местоположение
1 ответ
Ваше поле местоположения имеет text_general в качестве токенизатора. Это разделит входные данные на несколько токенов, и в результате вы получите результат, который вы показываете.
Измените его на строковое поле или используйте KeywordTokenizer (если вам нужно обработать его каким-либо образом). Если вы все еще хотите использовать поле для поиска без точного совпадения, определите другое поле как строковое поле и фасет для этого и используйте copyField для копирования содержимого в оба поля.
Причина заключается в том, что для генерации счетчиков используется фасетирование, а не сохраненный текст для поля (это то, что вы видите при запросе документа). Токены не видны напрямую (за исключением случаев, когда вы добавляете термины или извлекаете термины), но вы можете увидеть, как обрабатывается ваш контент и какие токены вводятся, как на странице "Анализ" в Solr Admin.