Найти количество уже существующих документов в solr с заданием solrindexing в nutch

В основном, в работе solrindex мы можем рассчитать количество документов, которые были обновлены в solr, и количество документов, которые были проиндексированы как новые документы.

1 ответ

Вы можете использовать это, чтобы увидеть статистику и статус (извлечено, not_modified, ушел...)

bin/nutch readdb crawl/crawldb/ -stats

Или вы можете сбросить crawldb, чтобы увидеть все URL, которые были просканированы с их статусом

bin/nutch readdb crawl/crawldb/ -dump whole_db
vi whole_db/part-r-00000
Другие вопросы по тегам