Получение полной веб-страницы, включая динамически загружаемые ссылки / изображения
проблема
Загрузка полной рабочей автономной копии сайта, который динамически загружает ссылки / изображения
Исследование
Есть вопросы (например, [1], [2], [3]) о Stackru, направленные на решение этой проблемы, большинство из которых имеют лучшие ответы, используя wget или httrack, оба из которых терпят неудачу (пожалуйста, исправьте меня, если я ошибаюсь) на страницах, которые загружают ссылки или использует их srcset
вместо src
за img
тег-либо что-либо загруженное через JS-. Довольно очевидным решением был Selenium, однако, если вы когда-либо использовали Selenium в производстве, вы быстро начинаете видеть проблемы, возникающие из-за такого решения (ресурсоемкий, довольно сложный в использовании драйвер полного заполнения, тот факт, что он не предназначен для что), как говорится, есть люди, которые утверждают, что легко использовали его в производстве в течение многих лет
Ожидаемое решение
Скрипт (желательно на python), который анализирует страницу для ссылок и загружает их отдельно. Я не могу найти какие-либо существующие сценарии, которые делают это. Если ваше решение "так реализуйте свое", то бессмысленно задавать вопрос в первую очередь, я ищу существующую реализацию.
Примеры
- Shopify.com
- Сайты, созданные с использованием Wix