Настройка Pycharm Scrapy-Splash с докером

Я использую Pycharm для управления чистящими проектами с помощью Scrapy, и для обычного html он работает нормально, но я пытался использовать плагин scrapy-splash для очистки сайтов с помощью Javascript. https://github.com/scrapy-plugins/scrapy-splash

Настроить его в Pycharm было непросто, так как он работает на Docker. Я установил Docker-контейнер и следовал за документацией Pycharm для этого. Эта часть, кажется, работает, но что-то между конфигурацией контейнера-докера и проектом scrapy неверно. Есть идеи, что я делаю не так? Докер подключен к API URL: tcp://localhost:2375

Это было сделано с помощью обходного пути из-за проблемы с подключением pycharm к докеру: socat TCP-LISTEN: 2375, reuseaddr, fork UNIX-CONNECT: /var/run/docker.sock

Pycharm Docker удаленный интерпретатор Python

Я следовал инструкциям плагина scrapy-splash для настройки:

Добавьте адрес сервера Splash в settings.py вашего проекта Scrapy:

SPLASH_URL = ' http://192.168.59.103:8050/'

Результат: хост недоступен.

Я также попробовал:

SPLASH_URL = ' http://localhost:8050/'

Результат: соединение отказано

и ' http://localhost:2375/' - ошибка 404.

Также добавил эти настройки в settings.py из настроек плагина:

DOWNLOADER_MIDDLEWARES = {
'scrapy_splash.SplashCookiesMiddleware': 723,
'scrapy_splash.SplashMiddleware': 725,
'scrapy.downloadermiddlewares.httpcompression.HttpCompressionMiddleware': 810,
}
SPIDER_MIDDLEWARES = {
    'scrapy_splash.SplashDeduplicateArgsMiddleware': 100,
}
DUPEFILTER_CLASS = 'scrapy_splash.SplashAwareDupeFilter'

HTTPCACHE_STORAGE = 'scrapy_splash.SplashAwareFSCacheStorage'

0 ответов

Другие вопросы по тегам