Как автоматически индексировать данные, используя solr и nutch?

Question

Как автоматически индексировать данные, используя solr и nutch?

Я хочу автоматически индексировать документ или веб-сайт, когда он подается в Apache Solr . Как мы можем достичь этого? Я видел примеры использования задания CRON, которое нужно вызывать через скрипт php, но они не совсем понятны в объяснении. Используя java api SolrJ, есть ли способ, которым мы можем индексировать данные автоматически, без необходимости делать это вручную?

0

apache solr solrj nutch moss2007enterprisesearch

Источник

user4193280 28 май '15 в 06:08

2 ответа

Другие вопросы по тегам apache solr solrj nutch moss2007enterprisesearch

user3636071 28 май '15 в 06:16 2015-05-28 06:16 · Answer 1 · 2015-05-28 06:16

Вы можете написать планировщик и вызвать код solrJ, который выполняет индексацию / переиндексацию.

Для написания планировщика перейдите по ссылкам ниже

http://www.mkyong.com/java/how-to-run-a-task-periodically-in-java/

http://archive.oreilly.com/pub/a/java/archive/quartz.html

0

Источник

user3636071 28 май '15 в 06:16

user1727204 28 май '15 в 06:46 2015-05-28 06:46 · Answer 2 · 2015-05-28 06:46

Если вы используете Apache Nutch, вы должны использовать плагин Nutch solr-index. С помощью этого плагина вы можете индексировать веб-документы, как только они будут сканироваться Nutch. Но главный вопрос заключается в том, как вы можете запланировать запуск Nutch периодически.

Насколько я знаю, вы должны использовать планировщик для этой цели. Я знал старый проект Nutch под названием Nutch-base, который использует Apache Quartz для целей планирования заданий Nutch. Вы можете найти исходный код Nutch-base по следующей ссылке:

https://github.com/mathieuravaux/nutchbase

Если вы рассматриваете этот проект, есть плагин, который называется admin-scheduling. Хотя он реализован для старой версии Nutch, но он может стать хорошей отправной точкой для разработки плагина планировщика для Nutch.

Стоит сказать, что если вы собираетесь периодически сканировать веб-сайт и получать новые ссылки, вы можете использовать это руководство.