Используя Nutch, как сканировать динамическое содержимое веб-страницы, которая использует AJAX?

Я использую Apache Nutch 1.10 для сканирования веб-страниц и для извлечения содержимого на странице. Некоторые из ссылок содержат динамическое содержимое, которое загружается по вызову ajax. Nutch не может сканировать и извлекать динамическое содержимое ajax. Как я могу решить это? Есть ли решение? Если да, пожалуйста, помогите мне с вашими ответами.

Заранее спасибо.

2 ответа

Большинство библиотек веб-сканеров не предлагают рендеринг JavaScript из коробки. Обычно вам нужно подключить другую библиотеку или продукт, который предлагает рендеринг js, например, Selenium или PhantomJS.

Вот учебник с использованием Nutch и Selenium.

Оформите последнюю версию Nutch 1.11 trunk, которая включает в себя новый плагин по протоколу интерактивного селена. ( https://github.com/apache/nutch/tree/trunk/src/plugin/protocol-interactiveselenium)

Этот плагин позволяет вам написать свой собственный обработчик и выполнить javascript для получения динамического контента.

Другие вопросы по тегам