Используя Nutch, как сканировать динамическое содержимое веб-страницы, которая использует AJAX?

Question

Используя Nutch, как сканировать динамическое содержимое веб-страницы, которая использует AJAX?

Я использую Apache Nutch 1.10 для сканирования веб-страниц и для извлечения содержимого на странице. Некоторые из ссылок содержат динамическое содержимое, которое загружается по вызову ajax. Nutch не может сканировать и извлекать динамическое содержимое ajax. Как я могу решить это? Есть ли решение? Если да, пожалуйста, помогите мне с вашими ответами.

Заранее спасибо.

4

java ajax plugins web-crawler nutch

Источник

user3364049 06 окт '15 в 09:39

2 ответа

Другие вопросы по тегам java ajax plugins web-crawler nutch

user495520 06 окт '15 в 16:09 2015-10-06 16:09 · Answer 1 · 2015-10-06 16:09

Большинство библиотек веб-сканеров не предлагают рендеринг JavaScript из коробки. Обычно вам нужно подключить другую библиотеку или продукт, который предлагает рендеринг js, например, Selenium или PhantomJS.

Вот учебник с использованием Nutch и Selenium.

4

Источник

user495520 06 окт '15 в 16:09

user2702341 10 окт '15 в 18:49 2015-10-10 18:49 · Answer 2 · 2015-10-10 18:49

Оформите последнюю версию Nutch 1.11 trunk, которая включает в себя новый плагин по протоколу интерактивного селена. ( https://github.com/apache/nutch/tree/trunk/src/plugin/protocol-interactiveselenium)

Этот плагин позволяет вам написать свой собственный обработчик и выполнить javascript для получения динамического контента.