Веб-паук, который может сканировать AJAX-сайты
Прямо сейчас я использую Crawler4j, и я очень доволен этим - но он не может сканировать сайты, основанные на ajax. Я использовал селен один раз для другого подхода, и это прекрасно работает в сочетании с фантомами. Так есть ли способ подключить Selenium к crawler4j?
Если нет - есть ли в Java еще одна хорошая библиотека для работы с сайтами на основе ajax?
(С помощью webspider я имею в виду, что я должен дать программе один URL, и она автоматически начнет извлекать контент с сайта)
1 ответ
В основном да. Исходный код crawler4j размещен на GitHub.
Вы можете добавить расширение, поэтому crawler4j может загружать сайты на основе ajax. По умолчанию crawler4j не может получить такие сайты.
Apache Nutch может отображать JS при сканировании веб-страниц, как описано здесь. Однако настройка Apache Nutch для веб-сканирования намного сложнее, чем адаптация существующих структур кода для использования с crawler4j.