Как Scrapy-Splash реализует прокси-профили?

У меня возникают некоторые проблемы с использованием Scrapy-Splash вместе с прокси-сервером HTTP (см. "500 Внутренняя ошибка сервера" при объединении Scrapy over Splash с HTTP-прокси), даже когда я пытаюсь установить профиль прокси после http://splash.readthedocs.io/en/latest/api.html.

Чтобы лучше понять, что происходит, я искал часть исходного кода Scrapy-Splash, https://github.com/scrapy-plugins/scrapy-splash, которая анализирует прокси host а также port указано в .ini файл в /etc/splash/proxy-profiles,

Однако поиск "proxy" или ".ini" в хранилище не дал никаких результатов. Может кто-нибудь объяснить мне, как профилирование прокси реализовано в Scrapy-Splash?

1 ответ

Во-первых, настройка прокси Scrapy-Splash находится в /etc/splash/proxy-profiles, но если вы запускаете splash в контейнере, вы можете сопоставить профиль прокси-сервера хоста с контейнером с помощью -vНапример:

sudo docker run -p 8050:8050 -v /etc/splash/proxy-profiles:/etc/splash/proxy-profiles scrapinghub/splash

Во-вторых, при посещении URL через заставку, параметр прокси нужен, если имя профиля прокси не default.iniНапример:

localhost:8050/render.html?url=http://target.com?wait=1&timeout=2&proxy=filename
Другие вопросы по тегам