Как Scrapy-Splash реализует прокси-профили?
У меня возникают некоторые проблемы с использованием Scrapy-Splash вместе с прокси-сервером HTTP (см. "500 Внутренняя ошибка сервера" при объединении Scrapy over Splash с HTTP-прокси), даже когда я пытаюсь установить профиль прокси после http://splash.readthedocs.io/en/latest/api.html.
Чтобы лучше понять, что происходит, я искал часть исходного кода Scrapy-Splash, https://github.com/scrapy-plugins/scrapy-splash, которая анализирует прокси host
а также port
указано в .ini
файл в /etc/splash/proxy-profiles
,
Однако поиск "proxy" или ".ini" в хранилище не дал никаких результатов. Может кто-нибудь объяснить мне, как профилирование прокси реализовано в Scrapy-Splash?
1 ответ
Во-первых, настройка прокси Scrapy-Splash находится в /etc/splash/proxy-profiles
, но если вы запускаете splash в контейнере, вы можете сопоставить профиль прокси-сервера хоста с контейнером с помощью -v
Например:
sudo docker run -p 8050:8050 -v /etc/splash/proxy-profiles:/etc/splash/proxy-profiles scrapinghub/splash
Во-вторых, при посещении URL через заставку, параметр прокси нужен, если имя профиля прокси не default.ini
Например:
localhost:8050/render.html?url=http://target.com?wait=1&timeout=2&proxy=filename