Веб-паук, который может сканировать AJAX-сайты

Question

Веб-паук, который может сканировать AJAX-сайты

Прямо сейчас я использую Crawler4j, и я очень доволен этим - но он не может сканировать сайты, основанные на ajax. Я использовал селен один раз для другого подхода, и это прекрасно работает в сочетании с фантомами. Так есть ли способ подключить Selenium к crawler4j?

Если нет - есть ли в Java еще одна хорошая библиотека для работы с сайтами на основе ajax?

(С помощью webspider я имею в виду, что я должен дать программе один URL, и она автоматически начнет извлекать контент с сайта)

1

ajax selenium web-crawler crawler4j

Источник

user1623471 12 ноя '15 в 15:15

1 ответ

Решение

Другие вопросы по тегам ajax selenium web-crawler crawler4j

user4506678 20 ноя '15 в 19:50 2015-11-20 19:50 · Accepted Answer · 2015-11-20 19:50

В основном да. Исходный код crawler4j размещен на GitHub.

Вы можете добавить расширение, поэтому crawler4j может загружать сайты на основе ajax. По умолчанию crawler4j не может получить такие сайты.

Apache Nutch может отображать JS при сканировании веб-страниц, как описано здесь. Однако настройка Apache Nutch для веб-сканирования намного сложнее, чем адаптация существующих структур кода для использования с crawler4j.