Настройка Pycharm Scrapy-Splash с докером
Я использую Pycharm для управления чистящими проектами с помощью Scrapy, и для обычного html он работает нормально, но я пытался использовать плагин scrapy-splash для очистки сайтов с помощью Javascript. https://github.com/scrapy-plugins/scrapy-splash
Настроить его в Pycharm было непросто, так как он работает на Docker. Я установил Docker-контейнер и следовал за документацией Pycharm для этого. Эта часть, кажется, работает, но что-то между конфигурацией контейнера-докера и проектом scrapy неверно. Есть идеи, что я делаю не так? Докер подключен к API URL: tcp://localhost:2375
Это было сделано с помощью обходного пути из-за проблемы с подключением pycharm к докеру: socat TCP-LISTEN: 2375, reuseaddr, fork UNIX-CONNECT: /var/run/docker.sock
Pycharm Docker удаленный интерпретатор Python
Я следовал инструкциям плагина scrapy-splash для настройки:
Добавьте адрес сервера Splash в settings.py вашего проекта Scrapy:
SPLASH_URL = ' http://192.168.59.103:8050/'
Результат: хост недоступен.
Я также попробовал:
SPLASH_URL = ' http://localhost:8050/'
Результат: соединение отказано
и ' http://localhost:2375/' - ошибка 404.
Также добавил эти настройки в settings.py из настроек плагина:
DOWNLOADER_MIDDLEWARES = {
'scrapy_splash.SplashCookiesMiddleware': 723,
'scrapy_splash.SplashMiddleware': 725,
'scrapy.downloadermiddlewares.httpcompression.HttpCompressionMiddleware': 810,
}
SPIDER_MIDDLEWARES = {
'scrapy_splash.SplashDeduplicateArgsMiddleware': 100,
}
DUPEFILTER_CLASS = 'scrapy_splash.SplashAwareDupeFilter'
HTTPCACHE_STORAGE = 'scrapy_splash.SplashAwareFSCacheStorage'