Как добавить прокси-сервер, например, Tor, при работе с node.io?

Я использую node.io для создания веб-скребка, но в течение времени, чтобы найти способ сделать это, я так много просил, и этот сайт заблокировал меня. Я не знаю, как добавить прокси, например, используя Tor для отправки запроса на этот сайт.

3 ответа

Решение

Следуйте этой статье http://pkmishra.github.io/blog/2013/03/18/how-to-run-scrapy-with-TOR-and-multiple-browser-agents-part-1-mac/

Я устанавливаю тор и полипо. Polipo для подключения к Tor и Node.IO будет использовать http-прокси, предоставленный Polipo. Это кажется простым, чем я думаю. И установить прокси для скребка

    var scrap = new Scraper({
    start: 0,
    limit: 5,
    count: null,
    max: config.max || 0,
    debug: true,
    wait: 3,
    proxy: 'http://127.0.0.1:8123'
});

Работает нормально.

Нам действительно нужно увидеть, что это за сайт, почему вы его очищаете, и в идеале, какой это конкретный сайт, чтобы дать совет. Знаете ли вы, почему вас заблокировали?

Первая мысль, которая у меня возникла, заключается в том, что вы сканировали сайт слишком быстро и по этой причине вас заблокировали вполне законно. Если ваш бизнес основан на сканировании только одного сайта (например, цены на eBay), то вам нужно делать это с задержкой в ​​несколько секунд между каждым кликом.

Я склонен считать, что операторы сайтов вполне могут заблокировать определенные скребки, если они того пожелают. Однако на эту точку зрения могут влиять понятия "общего блага", такие как уменьшение эффекта частичной монополии. Например, я знаю кого-то, кто имел обыкновение очищать цены от сайтов в определенной отрасли, а затем переформатировать и перепродавать эти данные. Результатом этих данных стало повышение конкурентоспособности всей отрасли и снижение цен для потребителя.

Таким образом, один из целевых сайтов решил заблокировать сканер. Было ли возражение против использования их ресурса без возможности продажи, или потому что им не нравился конкурентный эффект робота? Сложно сказать - наверное, оба. Скребок теперь заменен людьми - которые дороже в эксплуатации, но все равно получают данные.

Таким образом, существуют потенциальные аргументы в пользу использования прокси, но в большинстве случаев я считаю их плохой идеей. Например, если вы собираетесь брать чьи-то новостные статьи и переиздавать их в другом месте, не добавляя никакой ценности, тогда, конечно, вы должны быть заблокированы. Где провести черту, однако, сложно.


Связанный: мой ответ здесь предлагает несколько советов о том, как сканировать, включая общие советы о том, как избежать прокси и иметь легко блокируемый пользовательский агент. Возможно, это может быть полезно?

apt-get установить tor

npm установить tor-запрос - или-- пряжа добавить tor-запрос

https://www.npmjs.com/package/tor-request

Другие вопросы по тегам