Описание тега scrapy

Scrapy - это быстрый высокоуровневый фреймворк для парсинга экрана и веб-сканирования с открытым исходным кодом, написанный на Python, используемый для сканирования веб-сайтов и извлечения структурированных данных с их страниц. Его можно использовать для самых разных целей, от интеллектуального анализа данных до мониторинга и автоматического тестирования.
2 ответа

Как установить xvfb на Scrapinghub для использования Selenium?

Я использую Python-Selenium в своем пауке (Scrapy), для использования Selenium я должен установить xvfb на Scrapinghub. когда я использую apt-get для установки xvfb у меня есть это сообщение об ошибке: E: Could not open lock file /var/lib/dpkg/lock …
1 ответ

Определение дополнительных методов в классе Scrapy

Как выполняется класс Scrapy и как вы включаете дополнительные методы в класс паука? Например, из документов: import scrapy class DmozSpider(scrapy.Spider): name = "dmoz" allowed_domains = ["dmoz.org"] start_urls = [ "http://www.dmoz.org/Computers/P…
17 май '16 в 21:03
2 ответа

Как импортировать модели django в файл scrapy pipelines.py

Я пытаюсь импортировать модели одного приложения django в файл pipelines.py для сохранения данных с использованием django orm. Я создал проект scrapy scrapy_project в первом задействованном django-приложении "app1" (кстати, это хороший выбор?). Я до…
10 мар '13 в 11:12
0 ответов

Как я могу сделать Аргументы / Условное утверждение в Scrapy, чтобы изменить вывод

Я только новичок в языке программирования и Python в частности, в основном в Scrapy. скажем так на примере A-тега <a rel="author" href="http://exampledomain.com">Example Anchor Text</a> Я могу извлечь коды: href, anchor, rel, class и т. …
03 авг '18 в 16:16
1 ответ

Передача URL ответа Scrapy в Selenium, а затем ответ Selenium обратно в Scrapy

Как передать URL ответа Scrapy на селен, а затем ответ селеном обратно на Scrapy У меня есть этот паук Scrapy first.py: # -*- coding: utf-8 -*- import scrapy import re import json class FirstSpider(scrapy.Spider): name = "first" allowed_domains = ["…
1 ответ

Динамическое изменение приоритета планировщика запросов Scrapy

Я использую scrapy, чтобы выполнить тест на внутреннем веб-приложении. После того, как все мои тесты выполнены, я использую CrawlSpider для проверки везде, и для каждого ответа я запускаю валидатор HTML и ищу 404 медиа-файла. Это работает очень хоро…
18 май '13 в 16:08
1 ответ

Разбор HTML-элементов

Я пытаюсь перенести веб-форум, где у меня нет контроля над базой данных и т. Д., И использую Scrapy, чтобы собирать фрагменты. Он основан на старом форуме phpBB 2.x. Это не очень хорошо структурировано, поэтому несколько проблем. Теперь у меня есть …
28 сен '18 в 19:39
0 ответов

Scrapy не пишет в столбцах postgresql

У меня есть серверная часть django с базой данных PostgreSQL. Я сделал скребок для заполнения базы данных, но проблема заключается в печати результатов в консоли, а не в базе данных, потому что я не вижу их в интерфейсе администратора Django. Возмож…
14 окт '18 в 17:46
1 ответ

Как изменить xpath из моего кода для получения необходимых данных

Так что у меня есть scrap, который извлекает данные из тега, а затем записывает их в CSV. Теперь мне нужно изменить xpath, чтобы он мог читать переменную, подобную приведенной ниже. Из "var digitalData" мне понадобятся данные из "продукта". Я выложу…
29 авг '18 в 20:52
1 ответ

Как извлечь URL, на котором сейчас находится мой сканер?

Я делаю веб-сканер с использованием Scrapy Framework в Python. Основная идея заключается в том, что сканер извлекает некоторые данные со страницы, если данные соответствуют некоторым критериям, сканер должен извлечь URL-адрес, на котором он находитс…
27 ноя '16 в 00:31
1 ответ

Почему содержание ответа Scrap повышать не текст

При использовании scrapy для сканирования домашнего веб-сайта часто возникает ошибка AttributeError**** Содержимое ответа не является текстовым. Я не знаю, как его решить. import scrapy from scrapy.http import Request from ershoufang.items import Er…
25 июн '17 в 06:18
1 ответ

Извлечение данных из таблицы с помощью Scrapy

У меня есть этот стол <table class="specs-table"> <tbody> <tr> <td colspan="2" class="group">Sumary</td> </tr> <tr> <td class="specs-left">Name</td> <td class="specs-right">ROG GL552JX <…
01 июн '16 в 19:03
1 ответ

Как заполнить scrapy.Field как словарь

Я строю скребок для http://www.apkmirror.com/, используя Scrapy (с пауком SitemapSpider). Пока что работают следующие: DEBUG = True from scrapy.spiders import SitemapSpider from apkmirror_scraper.items import ApkmirrorScraperItem class ApkmirrorSite…
13 апр '17 в 15:53
1 ответ

Отказ в соединении при использовании Scrapy с Selenium

Я пытаюсь использовать Scrapy с Selenium, чтобы очистить страницу с динамически генерируемым содержимым JavaScript ( http://huati.weibo.com/). Я постоянно получаю отказ в соединении, но я не уверен, что я что-то делаю или сам сервер (который находит…
23 ноя '13 в 15:58
2 ответа

Создание DataFrame из очищенных данных с использованием Scrapy

У меня проблема с созданием файла данных типа CSV из очищенных данных. Мне удалось очистить данные из таблицы, но когда дело доходит до записи, я не могу сделать это в течение нескольких дней. Я использую предметы и пытаюсь записать их во фрейм данн…
06 июл '17 в 02:34
2 ответа

Как скрести все URL изображения и alt тег в нем с помощью scrapy

Моя цель - сканировать URL-адреса изображений и теги alt изображений с помощью scrapy . Я пробовал много комбинаций, но все еще не достиг этого. Вот что я пробовал def parse_item(self, response): sel = Selector(response) item = imageItem() item['cra…
02 май '14 в 13:26
1 ответ

Scrapy + Selenium Issue

Я пытаюсь почистить сайт известного британского ритейлера, используя как Selenium, так и Scrapy (см. Код ниже). Я получаю [scrapy.core.scraper] ERROR: Spider error processing и понятия не имею, что еще делать (было у него три часа или около того). С…
26 авг '17 в 15:35
0 ответов

Как удалить данные в аутентифицированном сеансе на динамической странице?

Я кодировал паука Scrapy, используя библиотеку loginform ( http://blog.scrapinghub.com/2012/10/26/filling-login-forms-automatically/), и взял этот пост в качестве справочного материала для динамических веб-страниц. Это код: class MySpider(CrawlSpide…
1 ответ

Асинхронный HTTP-сервер с scrapy и mongodb в python

Я в основном пытаюсь запустить HTTP-сервер, который будет отвечать контентом с веб-сайта, который я могу сканировать с помощью Scrapy. Чтобы начать сканирование веб-сайта, мне нужно войти на него и для этого мне нужно получить доступ к БД с учетными…
25 июл '18 в 18:37
1 ответ

pagination - xpath для сканера в питоне

На самом деле я работаю над сканером, использующим scrapy в python, и я почти закончил, у меня просто небольшая проблема. Сайт, использующий нумерацию страниц: <div class="pagination toolbarbloc"> <ul> <li class="active"><span&g…
11 сен '17 в 05:03