Индексирование структурированных и неструктурированных данных в Solr

У нас есть требование, чтобы в систему поступали как структурированные, так и неструктурированные данные. Нам нужно проиндексировать их обоих, а затем включить функцию поиска по ним. Мы используем SolrCloud на платформе Hadoop. Для структурированных данных мы планируем поместить данные в HBase, а для неструктурированных - непосредственно в HDFS.

У меня вопрос, как проиндексировать эти источники под одним ядром Solr? Можно ли будет индексировать как структурированные, так и неструктурированные данные в одном ядре / коллекции в SolrCloud, а затем включить функцию поиска по этому индексу?

Заранее спасибо.

1 ответ

Решение

В лучшем случае вы можете иметь схему Solr, которая содержит все возможные имена полей, т.е. как для ваших структурированных, так и для неструктурированных данных. Также обратите внимание, что, поскольку вы упомянули неструктурированный, вы можете добавить больше имен полей в существующий файл схемы. Если вы не можете добавлять поля, вам нужно подумать о другом способе сделать это возможным.

Таким образом, для ваших структурированных данных вам нужно только заполнить значения полей, специфичных для ваших структурированных данных, и оставить остальные поля без изменений.

Для одного ядра и индекса в Solr, вышеизложенное показывает, как на самом деле вы можете иметь разные документы, имеющие разную структуру.

Пожалуйста, ответьте мне, если вы имели в виду что-то другое в этом вопросе.

Другие вопросы по тегам