Crawler4J null, при обработке (ссылка) ошибка
У меня есть небольшой проект, который я пытаюсь отсканировать на несколько миллионов страниц, используя crawler4j 4.1 (у меня нет определенной оценки числа). Я использую пример BasicCrawler только внес некоторые незначительные изменения в него. Через некоторое время после начала сканирования в журналах Crawler4J постоянно отображаются следующие ошибки
[Crawler 1] ERROR edu.uci.ics.crawler4j.crawler.WebCrawler - null, while processing: http://www.somelink.com.
Я попытался увеличить время политики вежливости до 1000 миллисекунд и даже попытался запустить сканер с одним потоком, но та же самая вещь продолжала происходить.
Кроме того, в долгосрочной перспективе crawler4J, кажется, зависает в случайном порядке, в котором мне приходилось останавливать его и перезапускать каждый раз, когда он завис
Любая идея о том, что может быть причиной этого? и Crawler4J перепланирует недоступные ссылки обратно в границу или нет?
Спасибо
1 ответ
Хотя я не совсем уверен в том, что является причиной этой ошибки, но я попытался отследить все просканированные ссылки и те, которые все еще находятся на границе. Я могу подтвердить две вещи.
- Недоступные ссылки будут перепланированы на границе, и сканер попытается посетить их снова.
- Замораживание происходит только на страницах, размер которых превышает максимальный. в свою очередь, я увеличил лимит размера загрузки и добавил некоторые расширения в список, который нужно отбрасывать, что не является оптимальным решением, но для меня это помогло.