Как "захватить" контент с другого сайта

Question

Как "захватить" контент с другого сайта

Друг спросил меня об этом, и я не смог ответить.

Он спросил: я делаю этот сайт, где вы можете заархивировать свой сайт...

Это работает следующим образом: вы входите на свой сайт, как то, что-то, а затем наш сайт захватывает контент на этом сайте, как изображения, и все это и загружает его на наш сайт. Тогда люди смогут просмотреть точную копию сайта по адресу oursite.com/something.com, даже если сервер, на котором установлен что-то.com, не работает.

Как он мог это сделать? (php?) и какие будут некоторые требования?

0

web-crawler archive

Источник

user363551 01 авг '10 в 13:08

3 ответа

Решение

Используйте wget. Либо версия linux, либо версия windows из пакета gnuwin32. получите это здесь.

0

Источник

user127059 01 авг '10 в 13:11

Получить HTML с помощью curl.
Теперь измените все изображения, CSS, JavaScript на абсолютный URL, если они являются относительными URL. (Это немного неэтично). Вы можете получить все эти ресурсы и разместить на своем сайте.
Уважайте robots.txt всех сайтов. читай здесь.

0

Источник

user258388 01 авг '10 в 13:17

Другие вопросы по тегам web-crawler archive

user136540 01 авг '10 в 13:13 2010-08-01 13:13 · Accepted Answer · 2010-08-01 13:13

Похоже, вам нужно создать веб-сканер. Сканеры могут быть написаны на любом языке, хотя я бы порекомендовал для этого использовать C++ (с использованием cURL), Java (с использованием URLConnection) или Python (w/ urrlib2). Вы также можете быстро взломать что-нибудь вместе с командами curl или wget и BASH, хотя это, вероятно, не лучшее долгосрочное решение. Кроме того, не забывайте, что вы должны загружать, анализировать и уважать файл "robots.txt", если он присутствует, когда вы сканируете чей-то сайт.