Scrapy не работает с HTTP_PROXY = 'http://127.0.0.1:8123'

Question

Scrapy не работает с HTTP_PROXY = 'http://127.0.0.1:8123'

Мой проект в области терапии работает очень хорошо, но в одном случае это не так. Когда я пытаюсь сканировать один веб-сайт, у меня появляется ошибка 403

[scrapy.core.engine] DEBUG: Crawled (403) <GET ~website to crawl~> (referer: None)

но это работает только когда я комментирую строку

HTTP_PROXY = 'http://127.0.0.1:8123'

в моем settings.py файл. Я использую Tor с Polipo, поэтому мне нужна эта строка. Также я использую Python 3.x и Scrapy 1.4.

Мой файл settings.py

USER_AGENT_LIST = "useragents.txt"

ROBOTSTXT_OBEY = False

DOWNLOAD_DELAY = 0.5
RANDOMIZE_DOWNLOAD_DELAY = True

COOKIES_ENABLED = False

DOWNLOADER_MIDDLEWARES = {
    'scrapy.downloadermiddlewares.useragent.UserAgentMiddleware': None,
    'random_useragent.RandomUserAgentMiddleware': 400,
    'my_project.middlewares.ProxyMiddleware': 410,
}

EXTENSIONS = {
    'scrapy.extensions.telnet.TelnetConsole': None,
}

HTTP_PROXY = 'http://127.0.0.1:8123'

0

python python-3.x scrapy tor polipo

Источник

user6578727 14 ноя '17 в 10:50

0 ответов

Другие вопросы по тегам python python-3.x scrapy tor polipo