Как автоматически индексировать данные, используя solr и nutch?

Я хочу автоматически индексировать документ или веб-сайт, когда он подается в Apache Solr . Как мы можем достичь этого? Я видел примеры использования задания CRON, которое нужно вызывать через скрипт php, но они не совсем понятны в объяснении. Используя java api SolrJ, есть ли способ, которым мы можем индексировать данные автоматически, без необходимости делать это вручную?

2 ответа

Вы можете написать планировщик и вызвать код solrJ, который выполняет индексацию / переиндексацию.

Для написания планировщика перейдите по ссылкам ниже

http://www.mkyong.com/java/how-to-run-a-task-periodically-in-java/

http://archive.oreilly.com/pub/a/java/archive/quartz.html

Если вы используете Apache Nutch, вы должны использовать плагин Nutch solr-index. С помощью этого плагина вы можете индексировать веб-документы, как только они будут сканироваться Nutch. Но главный вопрос заключается в том, как вы можете запланировать запуск Nutch периодически.

Насколько я знаю, вы должны использовать планировщик для этой цели. Я знал старый проект Nutch под названием Nutch-base, который использует Apache Quartz для целей планирования заданий Nutch. Вы можете найти исходный код Nutch-base по следующей ссылке:

https://github.com/mathieuravaux/nutchbase

Если вы рассматриваете этот проект, есть плагин, который называется admin-scheduling. Хотя он реализован для старой версии Nutch, но он может стать хорошей отправной точкой для разработки плагина планировщика для Nutch.

Стоит сказать, что если вы собираетесь периодически сканировать веб-сайт и получать новые ссылки, вы можете использовать это руководство.

Другие вопросы по тегам