Обновление Solr из индекса Lucene

В настоящее время я работаю над проектом веб-архивирования. По сути, мы пытаемся архивировать коллекцию веб-сайтов (используя heritrix crawler) и предоставлять доступ к заархивированному контенту через веб-интерфейс.

Мы также предлагаем полнотекстовый поиск по архивам. В настоящее время индекс создается с использованием Nutchwax (настраиваемая версия Apache Nutch, адаптированная для индекса .warc файлы, созданные Heritrix). Nutchwax выводит индекс Lucene, и для его использования в Solr все, что нужно сделать, - это создать правильную схему.

Это все сделано и работает как надо, однако архив не статичен и есть новые .warc файлы генерируются периодически.

Теперь я могу сгенерировать новый индекс, объединить его с существующим и импортировать обратно в Solr. Однако для этого нужно перезапустить Solr. Было бы здорово, если бы индекс мог обновляться "на лету", как это обычно бывает (при обновлении индекса через http-запросы)

У кого-нибудь есть идея, как это можно сделать? Мой первый выстрел в этом был генерацией .xml файлы из индексного файла Lucene и размещение их в Solr. Стоит ли попробовать или есть более элегантные решения?

1 ответ

Решение

Возможно, вы могли бы использовать несколько ядер для достижения того, что вам нужно. См. Solr Wiki - CoreAdmin для более подробной информации. Я думаю, что вы могли бы использовать возможности MergeIndexes или возможность замены ядер для лучшего опыта в вашем сценарии.

Другие вопросы по тегам