Как автоматически индексировать данные, используя solr и nutch?
Я хочу автоматически индексировать документ или веб-сайт, когда он подается в Apache Solr . Как мы можем достичь этого? Я видел примеры использования задания CRON, которое нужно вызывать через скрипт php, но они не совсем понятны в объяснении. Используя java api SolrJ, есть ли способ, которым мы можем индексировать данные автоматически, без необходимости делать это вручную?
2 ответа
Вы можете написать планировщик и вызвать код solrJ, который выполняет индексацию / переиндексацию.
Для написания планировщика перейдите по ссылкам ниже
http://www.mkyong.com/java/how-to-run-a-task-periodically-in-java/
Если вы используете Apache Nutch, вы должны использовать плагин Nutch solr-index. С помощью этого плагина вы можете индексировать веб-документы, как только они будут сканироваться Nutch. Но главный вопрос заключается в том, как вы можете запланировать запуск Nutch периодически.
Насколько я знаю, вы должны использовать планировщик для этой цели. Я знал старый проект Nutch под названием Nutch-base, который использует Apache Quartz для целей планирования заданий Nutch. Вы можете найти исходный код Nutch-base по следующей ссылке:
https://github.com/mathieuravaux/nutchbase
Если вы рассматриваете этот проект, есть плагин, который называется admin-scheduling. Хотя он реализован для старой версии Nutch, но он может стать хорошей отправной точкой для разработки плагина планировщика для Nutch.
Стоит сказать, что если вы собираетесь периодически сканировать веб-сайт и получать новые ссылки, вы можете использовать это руководство.