Scrapy не работает с HTTP_PROXY = 'http://127.0.0.1:8123'
Мой проект в области терапии работает очень хорошо, но в одном случае это не так. Когда я пытаюсь сканировать один веб-сайт, у меня появляется ошибка 403
[scrapy.core.engine] DEBUG: Crawled (403) <GET ~website to crawl~> (referer: None)
но это работает только когда я комментирую строку
HTTP_PROXY = 'http://127.0.0.1:8123'
в моем settings.py
файл. Я использую Tor с Polipo, поэтому мне нужна эта строка. Также я использую Python 3.x и Scrapy 1.4.
Мой файл settings.py
USER_AGENT_LIST = "useragents.txt"
ROBOTSTXT_OBEY = False
DOWNLOAD_DELAY = 0.5
RANDOMIZE_DOWNLOAD_DELAY = True
COOKIES_ENABLED = False
DOWNLOADER_MIDDLEWARES = {
'scrapy.downloadermiddlewares.useragent.UserAgentMiddleware': None,
'random_useragent.RandomUserAgentMiddleware': 400,
'my_project.middlewares.ProxyMiddleware': 410,
}
EXTENSIONS = {
'scrapy.extensions.telnet.TelnetConsole': None,
}
HTTP_PROXY = 'http://127.0.0.1:8123'