Обновление Solr из индекса Lucene
В настоящее время я работаю над проектом веб-архивирования. По сути, мы пытаемся архивировать коллекцию веб-сайтов (используя heritrix crawler) и предоставлять доступ к заархивированному контенту через веб-интерфейс.
Мы также предлагаем полнотекстовый поиск по архивам. В настоящее время индекс создается с использованием Nutchwax (настраиваемая версия Apache Nutch, адаптированная для индекса .warc
файлы, созданные Heritrix). Nutchwax выводит индекс Lucene, и для его использования в Solr все, что нужно сделать, - это создать правильную схему.
Это все сделано и работает как надо, однако архив не статичен и есть новые .warc
файлы генерируются периодически.
Теперь я могу сгенерировать новый индекс, объединить его с существующим и импортировать обратно в Solr. Однако для этого нужно перезапустить Solr. Было бы здорово, если бы индекс мог обновляться "на лету", как это обычно бывает (при обновлении индекса через http-запросы)
У кого-нибудь есть идея, как это можно сделать? Мой первый выстрел в этом был генерацией .xml
файлы из индексного файла Lucene и размещение их в Solr. Стоит ли попробовать или есть более элегантные решения?
1 ответ
Возможно, вы могли бы использовать несколько ядер для достижения того, что вам нужно. См. Solr Wiki - CoreAdmin для более подробной информации. Я думаю, что вы могли бы использовать возможности MergeIndexes или возможность замены ядер для лучшего опыта в вашем сценарии.