"500 Internal Server Error" при объединении Scrapy через Splash с HTTP-прокси

Я пытаюсь сканировать паук Scrapy в контейнере Docker, используя Splash (для рендеринга JavaScript) и Tor через Privoxy (для обеспечения анонимности). Здесь docker-compose.yml Я использую для этого:

version: '3'

services:
  scraper:
    build: ./apk_splash
    # environment:
      # - http_proxy=http://tor-privoxy:8118
    links:
      - tor-privoxy
      - splash

  tor-privoxy:
    image: rdsubhas/tor-privoxy-alpine

  splash:
    image: scrapinghub/splash

где скребок имеет следующее Dockerfile:

FROM python:alpine
RUN apk --update add libxml2-dev libxslt-dev libffi-dev gcc musl-dev libgcc openssl-dev curl bash
RUN pip install scrapy scrapy-splash scrapy-fake-useragent
COPY . /scraper
WORKDIR /scraper
CMD ["scrapy", "crawl", "apkmirror"]

и паук, которого я пытаюсь ползти

import scrapy
from scrapy_splash import SplashRequest
from apk_splash.items import ApkmirrorItem

class ApkmirrorSpider(scrapy.Spider):
    name = 'apkmirror'
    allowed_domains = ['apkmirror.com']
    start_urls = [
        'http://www.apkmirror.com/apk/cslskku/androbench-storage-benchmark/androbench-storage-benchmark-5-0-release/androbench-storage-benchmark-5-0-android-apk-download/',
    ]

    custom_settings = {'USER_AGENT': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_5) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/59.0.3071.115 Safari/537.36'}

    def start_requests(self):
        for url in self.start_urls:
            yield SplashRequest(url=url, callback=self.parse, endpoint='render.html', args={'wait': 0.5})

    def parse(self, response):
        item = ApkmirrorItem()
        item['url'] = response.url
        item['developer'] = response.css('.breadcrumbs').xpath('.//*[re:test(@href, "^/(?:[^/]+/){1}[^/]+/$")]/text()').extract_first()
        item['app'] = response.css('.breadcrumbs').xpath('.//*[re:test(@href, "^/(?:[^/]+/){2}[^/]+/$")]/text()').extract_first()
        item['version'] = response.css('.breadcrumbs').xpath('.//*[re:test(@href, "^/(?:[^/]+/){3}[^/]+/$")]/text()').extract_first()
        yield item

где я добавил следующее settings.py:

SPIDER_MIDDLEWARES = {
    'scrapy_splash.SplashDeduplicateArgsMiddleware': 100,
}

DOWNLOADER_MIDDLEWARES = {
    'scrapy_splash.SplashCookiesMiddleware': 723,
    'scrapy_splash.SplashMiddleware': 725,
    'scrapy.downloadermiddlewares.httpcompression.HttpCompressionMiddleware': 810,
}

SPLASH_URL = 'http://splash:8050/'

DUPEFILTER_CLASS = 'scrapy_splash.SplashAwareDupeFilter'
HTTPCACHE_STORAGE = 'scrapy_splash.SplashAwareFSCacheStorage'

С environment для scraper Контейнер закомментирован, Скребок более-менее работает. Я получаю журналы, содержащие следующее:

scraper_1      | 2017-07-11 13:57:19 [scrapy.core.engine] DEBUG: Crawled (200) <GET http://www.apkmirror.com/apk/cslskku/androbench-storage-benchmark/androbench-storage-benchmark-5-0-release/androbench-storage-benchmark-5-0-android-apk-download/ via http://splash:8050/render.html> (referer: None)
scraper_1      | 2017-07-11 13:57:19 [scrapy.core.scraper] DEBUG: Scraped from <200 http://www.apkmirror.com/apk/cslskku/androbench-storage-benchmark/androbench-storage-benchmark-5-0-release/androbench-storage-benchmark-5-0-android-apk-download/>
scraper_1      | {'app': 'Androbench (Storage Benchmark)',
scraper_1      |  'developer': 'CSL@SKKU',
scraper_1      |  'url': 'http://www.apkmirror.com/apk/cslskku/androbench-storage-benchmark/androbench-storage-benchmark-5-0-release/androbench-storage-benchmark-5-0-android-apk-download/',
scraper_1      |  'version': '5.0'}
scraper_1      | 2017-07-11 13:57:19 [scrapy.core.engine] INFO: Closing spider (finished)
scraper_1      | 2017-07-11 13:57:19 [scrapy.statscollectors] INFO: Dumping Scrapy stats:
scraper_1      | {'downloader/request_bytes': 1508,
scraper_1      |  'downloader/request_count': 3,
scraper_1      |  'downloader/request_method_count/GET': 2,
scraper_1      |  'downloader/request_method_count/POST': 1,
scraper_1      |  'downloader/response_bytes': 190320,
scraper_1      |  'downloader/response_count': 3,
scraper_1      |  'downloader/response_status_count/200': 2,
scraper_1      |  'downloader/response_status_count/404': 1,
scraper_1      |  'finish_reason': 'finished',
scraper_1      |  'finish_time': datetime.datetime(2017, 7, 11, 13, 57, 19, 488874),
scraper_1      |  'item_scraped_count': 1,
scraper_1      |  'log_count/DEBUG': 5,
scraper_1      |  'log_count/INFO': 7,
scraper_1      |  'memusage/max': 49131520,
scraper_1      |  'memusage/startup': 49131520,
scraper_1      |  'response_received_count': 3,
scraper_1      |  'scheduler/dequeued': 2,
scraper_1      |  'scheduler/dequeued/memory': 2,
scraper_1      |  'scheduler/enqueued': 2,
scraper_1      |  'scheduler/enqueued/memory': 2,
scraper_1      |  'splash/render.html/request_count': 1,
scraper_1      |  'splash/render.html/response_count/200': 1,
scraper_1      |  'start_time': datetime.datetime(2017, 7, 11, 13, 57, 13, 788850)}
scraper_1      | 2017-07-11 13:57:19 [scrapy.core.engine] INFO: Spider closed (finished)
apksplashcompose_scraper_1 exited with code 0

Однако, если я прокомментирую в environment линии в docker-compose.yml, Я получаю 500 Внутренняя ошибка сервера:

scraper_1      | 2017-07-11 14:05:07 [scrapy.downloadermiddlewares.retry] DEBUG: Gave up retrying <GET http://www.apkmirror.com/apk/cslskku/androbench-storage-benchmark/androbench-storage-benchmark-5-0-release/androbench-storage-benchmark-5-0-android-apk-download/ via http://splash:8050/render.html> (failed 3 times): 500 Internal Server Error
scraper_1      | 2017-07-11 14:05:07 [scrapy.core.engine] DEBUG: Crawled (500) <GET http://www.apkmirror.com/apk/cslskku/androbench-storage-benchmark/androbench-storage-benchmark-5-0-release/androbench-storage-benchmark-5-0-android-apk-download/ via http://splash:8050/render.html> (referer: None)
scraper_1      | 2017-07-11 14:05:07 [scrapy.spidermiddlewares.httperror] INFO: Ignoring response <500 http://www.apkmirror.com/apk/cslskku/androbench-storage-benchmark/androbench-storage-benchmark-5-0-release/androbench-storage-benchmark-5-0-android-apk-download/>: HTTP status code is not handled or not allowed
scraper_1      | 2017-07-11 14:05:07 [scrapy.core.engine] INFO: Closing spider (finished)
scraper_1      | 2017-07-11 14:05:07 [scrapy.statscollectors] INFO: Dumping Scrapy stats:
scraper_1      | {'downloader/request_bytes': 3898,
scraper_1      |  'downloader/request_count': 7,
scraper_1      |  'downloader/request_method_count/GET': 4,
scraper_1      |  'downloader/request_method_count/POST': 3,
scraper_1      |  'downloader/response_bytes': 6839,
scraper_1      |  'downloader/response_count': 7,
scraper_1      |  'downloader/response_status_count/200': 1,
scraper_1      |  'downloader/response_status_count/500': 6,
scraper_1      |  'finish_reason': 'finished',
scraper_1      |  'finish_time': datetime.datetime(2017, 7, 11, 14, 5, 7, 866713),
scraper_1      |  'httperror/response_ignored_count': 1,
scraper_1      |  'httperror/response_ignored_status_count/500': 1,
scraper_1      |  'log_count/DEBUG': 10,
scraper_1      |  'log_count/INFO': 8,
scraper_1      |  'memusage/max': 49065984,
scraper_1      |  'memusage/startup': 49065984,
scraper_1      |  'response_received_count': 3,
scraper_1      |  'retry/count': 4,
scraper_1      |  'retry/max_reached': 2,
scraper_1      |  'retry/reason_count/500 Internal Server Error': 4,
scraper_1      |  'scheduler/dequeued': 4,
scraper_1      |  'scheduler/dequeued/memory': 4,
scraper_1      |  'scheduler/enqueued': 4,
scraper_1      |  'scheduler/enqueued/memory': 4,
scraper_1      |  'splash/render.html/request_count': 1,
scraper_1      |  'splash/render.html/response_count/500': 3,
scraper_1      |  'start_time': datetime.datetime(2017, 7, 11, 14, 4, 46, 717691)}
scraper_1      | 2017-07-11 14:05:07 [scrapy.core.engine] INFO: Spider closed (finished)
apksplashcompose_scraper_1 exited with code 0

Короче говоря, при использовании Splash для рендеринга JavaScript я не могу успешно использовать HttpProxyMiddleware для того, чтобы также использовать Tor через Privoxy. Кто-то может увидеть, что здесь происходит не так?

Обновить

После комментария Павла я попытался адаптировать splash обслуживание следующим образом:

  splash:
    image: scrapinghub/splash
    volumes:
      - ./splash/proxy-profiles:/etc/splash/proxy-profiles

где я добавил директорию 'splash' в основную директорию следующим образом:

.
├── apk_splash
├── docker-compose.yml
└── splash
    └── proxy-profiles
        └── proxy.ini

а также proxy.ini читает

[proxy]

host=tor-privoxy
port=8118

Насколько я понимаю, это должно сделать использование прокси всегда (т.е. whitelist по умолчанию ".*" и нет blacklist).

Однако, если я снова docker-compose build а также docker-compose upЯ все еще получаю ошибки HTTP 500. Таким образом, остается вопрос, как их решить?

(Между прочим, этот вопрос похож на https://github.com/scrapy-plugins/scrapy-splash/issues/117; однако я не использую Crawlera, поэтому не уверен, как адаптировать ответ).

Обновление 2

После второго комментария Пола я проверил, что tor-privoxy разрешается внутри контейнера, выполняя это (пока он еще работал):

~$ docker ps -l
CONTAINER ID        IMAGE                      COMMAND                  CREATED             STATUS              PORTS               NAMES
04909e6ef5cb        apksplashcompose_scraper   "scrapy crawl apkm..."   2 hours ago         Up 8 seconds                            apksplashcompose_scraper_1
~$ docker exec -it $(docker ps -lq) /bin/bash
bash-4.3# python
Python 3.6.1 (default, Jun 19 2017, 23:58:41) 
[GCC 5.3.0] on linux
Type "help", "copyright", "credits" or "license" for more information.
>>> import socket
>>> socket.gethostbyname('tor-privoxy')
'172.22.0.2'

Что касается того, как я запускаю Splash, то это через связанный контейнер, аналогично тому, как описано в https://splash.readthedocs.io/en/stable/install.html. Я подтвердил, что /etc/splash/proxy-profiles/proxy.ini присутствует в контейнере:

~$ docker exec -it apksplashcompose_splash_1 /bin/bash
root@b091fbef4c78:/# cd /etc/splash/proxy-profiles
root@b091fbef4c78:/etc/splash/proxy-profiles# ls
proxy.ini
root@b091fbef4c78:/etc/splash/proxy-profiles# cat proxy.ini
[proxy]

host=tor-privoxy
port=8118

Я попробую Aquarium, но остается вопрос, почему текущая настройка не работает?

1 ответ

Решение

Следуя структуре проекта Aquarium, предложенной paul trmbrth, я обнаружил, что очень важно назвать файл.ini default.iniне proxy.ini (иначе он не "подхватывается" автоматически). Мне удалось заставить скребок работать таким образом (см. Мой собственный ответ на Как использовать Scrapy с Splash и Tor поверх Privoxy в Docker Compose).

Другие вопросы по тегам