Найти количество уже существующих документов в solr с заданием solrindexing в nutch
В основном, в работе solrindex мы можем рассчитать количество документов, которые были обновлены в solr, и количество документов, которые были проиндексированы как новые документы.
1 ответ
Вы можете использовать это, чтобы увидеть статистику и статус (извлечено, not_modified, ушел...)
bin/nutch readdb crawl/crawldb/ -stats
Или вы можете сбросить crawldb, чтобы увидеть все URL, которые были просканированы с их статусом
bin/nutch readdb crawl/crawldb/ -dump whole_db
vi whole_db/part-r-00000