Получение полной веб-страницы, включая динамически загружаемые ссылки / изображения

Question

Получение полной веб-страницы, включая динамически загружаемые ссылки / изображения

проблема

Загрузка полной рабочей автономной копии сайта, который динамически загружает ссылки / изображения

Исследование

Есть вопросы (например, [1], [2], [3]) о Stackru, направленные на решение этой проблемы, большинство из которых имеют лучшие ответы, используя wget или httrack, оба из которых терпят неудачу (пожалуйста, исправьте меня, если я ошибаюсь) на страницах, которые загружают ссылки или использует их srcset вместо src за img тег-либо что-либо загруженное через JS-. Довольно очевидным решением был Selenium, однако, если вы когда-либо использовали Selenium в производстве, вы быстро начинаете видеть проблемы, возникающие из-за такого решения (ресурсоемкий, довольно сложный в использовании драйвер полного заполнения, тот факт, что он не предназначен для что), как говорится, есть люди, которые утверждают, что легко использовали его в производстве в течение многих лет

Ожидаемое решение

Скрипт (желательно на python), который анализирует страницу для ссылок и загружает их отдельно. Я не могу найти какие-либо существующие сценарии, которые делают это. Если ваше решение "так реализуйте свое", то бессмысленно задавать вопрос в первую очередь, я ищу существующую реализацию.

Примеры

Shopify.com
Сайты, созданные с использованием Wix

5

python selenium web-scraping wget httrack

Источник

user1223945 15 апр '18 в 17:11

0 ответов

Другие вопросы по тегам python selenium web-scraping wget httrack

user1223945 23 окт '19 в 17:10 2019-10-23 17:10 · Answer 1 · 2019-10-23 17:10

Сейчас есть безголовые версии Selenium и альтернативы, такие как PhantomJS, либо можно использовать с небольшим скриптом для удаления любого динамически загружаемого веб-сайта.

Я осуществил общий скребок здесь, и объяснил больше о теме здесь

2

Источник

user1223945 23 окт '19 в 17:10