Crawler4J null, при обработке (ссылка) ошибка

У меня есть небольшой проект, который я пытаюсь отсканировать на несколько миллионов страниц, используя crawler4j 4.1 (у меня нет определенной оценки числа). Я использую пример BasicCrawler только внес некоторые незначительные изменения в него. Через некоторое время после начала сканирования в журналах Crawler4J постоянно отображаются следующие ошибки

[Crawler 1] ERROR edu.uci.ics.crawler4j.crawler.WebCrawler - null, while processing: http://www.somelink.com.

Я попытался увеличить время политики вежливости до 1000 миллисекунд и даже попытался запустить сканер с одним потоком, но та же самая вещь продолжала происходить.

Кроме того, в долгосрочной перспективе crawler4J, кажется, зависает в случайном порядке, в котором мне приходилось останавливать его и перезапускать каждый раз, когда он завис

Любая идея о том, что может быть причиной этого? и Crawler4J перепланирует недоступные ссылки обратно в границу или нет?

Спасибо

1 ответ

Решение

Хотя я не совсем уверен в том, что является причиной этой ошибки, но я попытался отследить все просканированные ссылки и те, которые все еще находятся на границе. Я могу подтвердить две вещи.

  1. Недоступные ссылки будут перепланированы на границе, и сканер попытается посетить их снова.
  2. Замораживание происходит только на страницах, размер которых превышает максимальный. в свою очередь, я увеличил лимит размера загрузки и добавил некоторые расширения в список, который нужно отбрасывать, что не является оптимальным решением, но для меня это помогло.
Другие вопросы по тегам