Описание тега scrapy-spider

Пауки - это классы, которые определяют, как будет очищаться определенный сайт (или группа сайтов), в том числе как выполнять сканирование (т. Е. Переходить по ссылкам) и как извлекать структурированные данные с их страниц (т. Е. Извлекать элементы).
1 ответ

Передача URL ответа Scrapy в Selenium, а затем ответ Selenium обратно в Scrapy

Как передать URL ответа Scrapy на селен, а затем ответ селеном обратно на Scrapy У меня есть этот паук Scrapy first.py: # -*- coding: utf-8 -*- import scrapy import re import json class FirstSpider(scrapy.Spider): name = "first" allowed_domains = ["…
1 ответ

Как заполнить scrapy.Field как словарь

Я строю скребок для http://www.apkmirror.com/, используя Scrapy (с пауком SitemapSpider). Пока что работают следующие: DEBUG = True from scrapy.spiders import SitemapSpider from apkmirror_scraper.items import ApkmirrorScraperItem class ApkmirrorSite…
13 апр '17 в 15:53
1 ответ

Scrapy + Selenium Issue

Я пытаюсь почистить сайт известного британского ритейлера, используя как Selenium, так и Scrapy (см. Код ниже). Я получаю [scrapy.core.scraper] ERROR: Spider error processing и понятия не имею, что еще делать (было у него три часа или около того). С…
26 авг '17 в 15:35
0 ответов

Как удалить данные в аутентифицированном сеансе на динамической странице?

Я кодировал паука Scrapy, используя библиотеку loginform ( http://blog.scrapinghub.com/2012/10/26/filling-login-forms-automatically/), и взял этот пост в качестве справочного материала для динамических веб-страниц. Это код: class MySpider(CrawlSpide…
1 ответ

Scrapy KeyError в Linux Server, но не в Windows

Мой Scrapy отлично работает на моей локальной машине, Windows. Затем я пытаюсь запустить его на своем сервере AWS Linux, но я получил это Traceback (most recent call last): File "run<spider_name>.py", line 12, in <module> spider_name).sp…
2 ответа

Scrapy объединяет связанные запросы в один

У меня есть сценарий, когда я просматриваю магазин, просматривая десятки страниц. Затем, когда я найду нужный товар, я добавлю его в корзину. Наконец я хочу оформить заказ. Проблема в том, что при цепочке скрапа он хочет проверять корзину столько ра…
11 июн '18 в 05:35
2 ответа

Как скрести ленивую загрузку изображений с помощью Python Scrapy

Вот код, который я использовал для сканирования веб-страницы. На сайте, который я хочу очистить, включена отложенная загрузка изображений, так что scrapy может захватить только 10 из 100 изображений, все остальные - placeholder.jpg. Как лучше всего …
30 апр '16 в 05:39
1 ответ

Scrapy и Selenium StaleElementReferenceException

На странице есть несколько элементов, поддерживающих клики, и я пытаюсь очистить некоторые страницы, но у меня есть эта ошибка, и паук закрывается после первого клика: StaleElementReferenceException: Message: Element not found in the cache - perhaps…
21 янв '16 в 21:05
1 ответ

Как скачать файл по ссылке с расширением типа с помощью scrapy

Я использую скрап для очистки веб-сайта и могу загрузить файл со страницы, однако все, что загружается, представляет собой простой текстовый файл. Как мне скачать его с его типом расширения? Я загружаю скрипты, и поэтому для загрузки необходим прави…
20 июн '16 в 08:17
1 ответ

Проблема импортирования скрапа в JSON

Я пытаюсь извлечь некоторую информацию из Craigslist и сохранить ее в файле JSON, но информация хранится немного неправильно. Вместо массива [title, link, location, time] я получаю массив со всеми заголовками, один со всеми ссылками и т. Д. Мои заго…
21 апр '16 в 02:38
1 ответ

Scrapy ползет, но не царапает

Проблема в том, что если я добавлю URL продукта непосредственно в start_urls, все будет работать нормально. Но когда страница продукта появляется во время сканирования (все просканированные страницы возвращают '200'), она не соскабливается.... Я зап…
26 ноя '16 в 14:17
1 ответ

ОШИБКА: обработка ошибок паука в модуле Scrapy

Я написал программу утилизации веб-страниц с использованием scrapy, которая извлекает заголовок и тело из результатов поиска и при запуске паука с помощью команды Scrap Crawl Reddit это показывает ОТЛАДКА: Сканировано (200) https://www.reddit.com/r/…
2 ответа

Scrapy получить имя загруженного файла

Я новичок в Scrapy, пожалуйста, потерпите меня. У меня есть паук, который посещает страницу и загружает файл. В конечном итоге я хочу записать имя файла вместе с другой полезной информацией в таблицу БД. -> Сейчас я пытаюсь получить имя файла: из it…
21 авг '17 в 16:16
0 ответов

Почему Scrapyd спланировал паука 503 при попытке очистить сайт?

Я изучаю Python и выскабливание и написал свой первый паук, используя Scrapy. Он работает нормально, когда я запускаю его локально, чтобы очистить свой тестовый сайт, он работает нормально. Я развернул проект на своем удаленном сервере в Scrapyd, но…
30 июл '17 в 11:11
2 ответа

Обратный звонок для перенаправленных запросов Scrapy

Я пытаюсь скрести, используя скребковые рамки. Некоторые запросы перенаправляются, но функция обратного вызова, установленная в start_requests, не вызывается для этих перенаправленных URL-запросов, но отлично работает для не перенаправленных. У меня…
1 ответ

Какое влияние на повышение CloseSpider в Scrapy?

Я хочу знать, какое влияние поднимает CloseSpider. В документации http://doc.scrapy.org/en/latest/topics/exceptions.html об этом нет информации. Как известно, scrapy обрабатывает несколько запросов одновременно. Что если это исключение будет вызвано…
2 ответа

Scrapy получить URL перед перенаправлением

У меня сканер работает без проблем, но мне нужно получить start_url, а не перенаправленный. Проблема в том, что я использую правила для передачи параметров в URL (например, field-keyword =xxxxx) и, наконец, получаю правильный URL. Функция синтаксиче…
14 ноя '17 в 15:47
0 ответов

Scrapy CookieEnabled не работает

Я пытаюсь сломать сайт, и у меня есть COOKIE_ENABLED значение true, однако иногда я получаю следующий ответ на запрос: Где соответствующий ответ html: <html> <head><base href="http://www.yad2.co.il/Nadlan/sales_info.php?NadlanID=4b374…
16 дек '16 в 22:01
0 ответов

Python: -bash: scrapy: команда не найдена в Mac OS

scrpay в PATH Так почему команда не найдена.. Как ее решить? когда использовать "какой питон": userdeMacBook-Pro:~ cdn$ which python /usr/local/bin/python когда использовать ls -l
10 июн '17 в 04:41
1 ответ

Сложите ссылки второго уровня рекурсивно в Scrapy

Используя Scrapy, я пытаюсь очистить сеть ссылок из Википедии на всех языках. Каждая страница Википедии должна содержать ссылку на элемент Wikidata, который однозначно определяет тему страницы на всех языках. Процесс, который я пытаюсь реализовать, …
27 фев '18 в 21:55