Как "захватить" контент с другого сайта

Друг спросил меня об этом, и я не смог ответить.

Он спросил: я делаю этот сайт, где вы можете заархивировать свой сайт...

Это работает следующим образом: вы входите на свой сайт, как то, что-то, а затем наш сайт захватывает контент на этом сайте, как изображения, и все это и загружает его на наш сайт. Тогда люди смогут просмотреть точную копию сайта по адресу oursite.com/something.com, даже если сервер, на котором установлен что-то.com, не работает.

Как он мог это сделать? (php?) и какие будут некоторые требования?

3 ответа

Решение

Похоже, вам нужно создать веб-сканер. Сканеры могут быть написаны на любом языке, хотя я бы порекомендовал для этого использовать C++ (с использованием cURL), Java (с использованием URLConnection) или Python (w/ urrlib2). Вы также можете быстро взломать что-нибудь вместе с командами curl или wget и BASH, хотя это, вероятно, не лучшее долгосрочное решение. Кроме того, не забывайте, что вы должны загружать, анализировать и уважать файл "robots.txt", если он присутствует, когда вы сканируете чей-то сайт.

Используйте wget. Либо версия linux, либо версия windows из пакета gnuwin32. получите это здесь.

  1. Получить HTML с помощью curl.
  2. Теперь измените все изображения, CSS, JavaScript на абсолютный URL, если они являются относительными URL. (Это немного неэтично). Вы можете получить все эти ресурсы и разместить на своем сайте.
  3. Уважайте robots.txt всех сайтов. читай здесь.
Другие вопросы по тегам