Описание тега scrapy-spider
Пауки - это классы, которые определяют, как будет очищаться определенный сайт (или группа сайтов), в том числе как выполнять сканирование (т. Е. Переходить по ссылкам) и как извлекать структурированные данные с их страниц (т. Е. Извлекать элементы).
1
ответ
Передача URL ответа Scrapy в Selenium, а затем ответ Selenium обратно в Scrapy
Как передать URL ответа Scrapy на селен, а затем ответ селеном обратно на Scrapy У меня есть этот паук Scrapy first.py: # -*- coding: utf-8 -*- import scrapy import re import json class FirstSpider(scrapy.Spider): name = "first" allowed_domains = ["…
13 ноя '16 в 13:11
1
ответ
Как заполнить scrapy.Field как словарь
Я строю скребок для http://www.apkmirror.com/, используя Scrapy (с пауком SitemapSpider). Пока что работают следующие: DEBUG = True from scrapy.spiders import SitemapSpider from apkmirror_scraper.items import ApkmirrorScraperItem class ApkmirrorSite…
13 апр '17 в 15:53
1
ответ
Scrapy + Selenium Issue
Я пытаюсь почистить сайт известного британского ритейлера, используя как Selenium, так и Scrapy (см. Код ниже). Я получаю [scrapy.core.scraper] ERROR: Spider error processing и понятия не имею, что еще делать (было у него три часа или около того). С…
26 авг '17 в 15:35
0
ответов
Как удалить данные в аутентифицированном сеансе на динамической странице?
Я кодировал паука Scrapy, используя библиотеку loginform ( http://blog.scrapinghub.com/2012/10/26/filling-login-forms-automatically/), и взял этот пост в качестве справочного материала для динамических веб-страниц. Это код: class MySpider(CrawlSpide…
22 июл '15 в 16:05
1
ответ
Scrapy KeyError в Linux Server, но не в Windows
Мой Scrapy отлично работает на моей локальной машине, Windows. Затем я пытаюсь запустить его на своем сервере AWS Linux, но я получил это Traceback (most recent call last): File "run<spider_name>.py", line 12, in <module> spider_name).sp…
17 фев '17 в 03:20
2
ответа
Scrapy объединяет связанные запросы в один
У меня есть сценарий, когда я просматриваю магазин, просматривая десятки страниц. Затем, когда я найду нужный товар, я добавлю его в корзину. Наконец я хочу оформить заказ. Проблема в том, что при цепочке скрапа он хочет проверять корзину столько ра…
11 июн '18 в 05:35
2
ответа
Как скрести ленивую загрузку изображений с помощью Python Scrapy
Вот код, который я использовал для сканирования веб-страницы. На сайте, который я хочу очистить, включена отложенная загрузка изображений, так что scrapy может захватить только 10 из 100 изображений, все остальные - placeholder.jpg. Как лучше всего …
30 апр '16 в 05:39
1
ответ
Scrapy и Selenium StaleElementReferenceException
На странице есть несколько элементов, поддерживающих клики, и я пытаюсь очистить некоторые страницы, но у меня есть эта ошибка, и паук закрывается после первого клика: StaleElementReferenceException: Message: Element not found in the cache - perhaps…
21 янв '16 в 21:05
1
ответ
Как скачать файл по ссылке с расширением типа с помощью scrapy
Я использую скрап для очистки веб-сайта и могу загрузить файл со страницы, однако все, что загружается, представляет собой простой текстовый файл. Как мне скачать его с его типом расширения? Я загружаю скрипты, и поэтому для загрузки необходим прави…
20 июн '16 в 08:17
1
ответ
Проблема импортирования скрапа в JSON
Я пытаюсь извлечь некоторую информацию из Craigslist и сохранить ее в файле JSON, но информация хранится немного неправильно. Вместо массива [title, link, location, time] я получаю массив со всеми заголовками, один со всеми ссылками и т. Д. Мои заго…
21 апр '16 в 02:38
1
ответ
Scrapy ползет, но не царапает
Проблема в том, что если я добавлю URL продукта непосредственно в start_urls, все будет работать нормально. Но когда страница продукта появляется во время сканирования (все просканированные страницы возвращают '200'), она не соскабливается.... Я зап…
26 ноя '16 в 14:17
1
ответ
ОШИБКА: обработка ошибок паука в модуле Scrapy
Я написал программу утилизации веб-страниц с использованием scrapy, которая извлекает заголовок и тело из результатов поиска и при запуске паука с помощью команды Scrap Crawl Reddit это показывает ОТЛАДКА: Сканировано (200) https://www.reddit.com/r/…
09 май '18 в 09:06
2
ответа
Scrapy получить имя загруженного файла
Я новичок в Scrapy, пожалуйста, потерпите меня. У меня есть паук, который посещает страницу и загружает файл. В конечном итоге я хочу записать имя файла вместе с другой полезной информацией в таблицу БД. -> Сейчас я пытаюсь получить имя файла: из it…
21 авг '17 в 16:16
0
ответов
Почему Scrapyd спланировал паука 503 при попытке очистить сайт?
Я изучаю Python и выскабливание и написал свой первый паук, используя Scrapy. Он работает нормально, когда я запускаю его локально, чтобы очистить свой тестовый сайт, он работает нормально. Я развернул проект на своем удаленном сервере в Scrapyd, но…
30 июл '17 в 11:11
2
ответа
Обратный звонок для перенаправленных запросов Scrapy
Я пытаюсь скрести, используя скребковые рамки. Некоторые запросы перенаправляются, но функция обратного вызова, установленная в start_requests, не вызывается для этих перенаправленных URL-запросов, но отлично работает для не перенаправленных. У меня…
05 мар '16 в 05:04
1
ответ
Какое влияние на повышение CloseSpider в Scrapy?
Я хочу знать, какое влияние поднимает CloseSpider. В документации http://doc.scrapy.org/en/latest/topics/exceptions.html об этом нет информации. Как известно, scrapy обрабатывает несколько запросов одновременно. Что если это исключение будет вызвано…
14 июл '15 в 18:35
2
ответа
Scrapy получить URL перед перенаправлением
У меня сканер работает без проблем, но мне нужно получить start_url, а не перенаправленный. Проблема в том, что я использую правила для передачи параметров в URL (например, field-keyword =xxxxx) и, наконец, получаю правильный URL. Функция синтаксиче…
14 ноя '17 в 15:47
0
ответов
Scrapy CookieEnabled не работает
Я пытаюсь сломать сайт, и у меня есть COOKIE_ENABLED значение true, однако иногда я получаю следующий ответ на запрос: Где соответствующий ответ html: <html> <head><base href="http://www.yad2.co.il/Nadlan/sales_info.php?NadlanID=4b374…
16 дек '16 в 22:01
0
ответов
Python: -bash: scrapy: команда не найдена в Mac OS
scrpay в PATH Так почему команда не найдена.. Как ее решить? когда использовать "какой питон": userdeMacBook-Pro:~ cdn$ which python /usr/local/bin/python когда использовать ls -l
10 июн '17 в 04:41
1
ответ
Сложите ссылки второго уровня рекурсивно в Scrapy
Используя Scrapy, я пытаюсь очистить сеть ссылок из Википедии на всех языках. Каждая страница Википедии должна содержать ссылку на элемент Wikidata, который однозначно определяет тему страницы на всех языках. Процесс, который я пытаюсь реализовать, …
27 фев '18 в 21:55