Используя Nutch, как сканировать динамическое содержимое веб-страницы, которая использует AJAX?
Я использую Apache Nutch 1.10 для сканирования веб-страниц и для извлечения содержимого на странице. Некоторые из ссылок содержат динамическое содержимое, которое загружается по вызову ajax. Nutch не может сканировать и извлекать динамическое содержимое ajax. Как я могу решить это? Есть ли решение? Если да, пожалуйста, помогите мне с вашими ответами.
Заранее спасибо.
2 ответа
Большинство библиотек веб-сканеров не предлагают рендеринг JavaScript из коробки. Обычно вам нужно подключить другую библиотеку или продукт, который предлагает рендеринг js, например, Selenium или PhantomJS.
Оформите последнюю версию Nutch 1.11 trunk, которая включает в себя новый плагин по протоколу интерактивного селена. ( https://github.com/apache/nutch/tree/trunk/src/plugin/protocol-interactiveselenium)
Этот плагин позволяет вам написать свой собственный обработчик и выполнить javascript для получения динамического контента.