Solr dataimport нескольких столбцов JDBC в одном поле
Я пытаюсь реализовать поиск Solr для проекта. Пока все было хорошо, сработала первая простая версия. Теперь я пытаюсь импортировать данные из базы данных postgres, где несколько столбцов должны оказаться в одном поле. Мой конфиг:
<entity name="address" query="SELECT objectid, ags2, ags3, ags5, ags8, ags11, ags20, ags22, pt, stn, hnr_min, hnr_max, plz, ort, ortz, ot1, ot2 FROM variablen2018.ags22_tmp_solr LIMIT 10000;">
<field column="objectid" name="id" />
<field column="plz" name="plz" />
<field column="ort" name="ort" />
<field column="ortz" name="ort" />
<field column="ot1" name="ort" />
<field column="ot2" name="ort" />
<field column="ort" name="ort_res" />
<field column="stn" name="stn" />
<field column="stn" name="stn_res" />
<field column="ags2" name="ags2" />
<field column="ags3" name="ags3" />
<field column="ags5" name="ags5" />
<field column="ags8" name="ags8" />
<field column="ags11" name="ags11" />
<field column="ags20" name="ags20" />
<field column="ags22" name="ags22" />
<field column="pt" name="coord" />
<field column="hnr_min" name="hnr_min" />
<field column="hnr_max" name="hnr_max" />
</entity>
Как вы можете видеть, есть четыре столбца из БД (ort, ortz, ot1, ot2), идущие в одно поле (ort). В большинстве случаев заполнен только один из столбцов, и в этом случае документ индексируется нормально. Но при наличии нескольких записей индексация документа завершается неудачно. Поле определяется следующим образом:
<field name="ort" type="text_de" uninvertible="true" indexed="true" required="true" stored="true"/>
2 ответа
DataImporthandler отображает представление результата запроса в представление схемы, и, следовательно, я не думаю, что вы сможете отобразить несколько столбцов в одно поле. Вместо этого вы можете назначить каждый столбец новому полю Solr, а затем сделать их копию в своей схеме.
например
<field name="ort" type="string" />
<field name="ortz" type="string" />
<field name="ot1" type="string" />
<field name="ot2" type="string" />
<field name="ortCombined" type="string" multiValued="true"/>
<copyField source="ort" dest="ortCombined" />
<copyField source="ortz" dest="ortCombined" />
<copyField source="ot1" dest="ortCombined" />
<copyField source="ot2" dest="ortCombined" />
Надеюсь это поможет!
Вы делаете это так:
вы объединяете все значения в одно значение в Select:
select..., ort || ',' || ortz || ',' || or1 || ',' || ort2 AS ort_all FROM variablen2018.ags22_tmp_solr
а затем разбить его на отдельные значения при индексации в solr (это делается с помощью RegexTransformer/splitBy)
...
Примечание: вставьте пробел после <или текст здесь не отображается...
Остерегаться:
- обрабатывать возможные нули, проверить concat_ws и т. д.
- обработка возможного, внутри значений ort (используйте другой разделитель или замените и т. д.)