Описание тега scrapy
Scrapy - это быстрый высокоуровневый фреймворк для парсинга экрана и веб-сканирования с открытым исходным кодом, написанный на Python, используемый для сканирования веб-сайтов и извлечения структурированных данных с их страниц. Его можно использовать для самых разных целей, от интеллектуального анализа данных до мониторинга и автоматического тестирования.
2
ответа
Как установить xvfb на Scrapinghub для использования Selenium?
Я использую Python-Selenium в своем пауке (Scrapy), для использования Selenium я должен установить xvfb на Scrapinghub. когда я использую apt-get для установки xvfb у меня есть это сообщение об ошибке: E: Could not open lock file /var/lib/dpkg/lock …
09 июн '17 в 15:17
1
ответ
Определение дополнительных методов в классе Scrapy
Как выполняется класс Scrapy и как вы включаете дополнительные методы в класс паука? Например, из документов: import scrapy class DmozSpider(scrapy.Spider): name = "dmoz" allowed_domains = ["dmoz.org"] start_urls = [ "http://www.dmoz.org/Computers/P…
17 май '16 в 21:03
2
ответа
Как импортировать модели django в файл scrapy pipelines.py
Я пытаюсь импортировать модели одного приложения django в файл pipelines.py для сохранения данных с использованием django orm. Я создал проект scrapy scrapy_project в первом задействованном django-приложении "app1" (кстати, это хороший выбор?). Я до…
10 мар '13 в 11:12
0
ответов
Как я могу сделать Аргументы / Условное утверждение в Scrapy, чтобы изменить вывод
Я только новичок в языке программирования и Python в частности, в основном в Scrapy. скажем так на примере A-тега <a rel="author" href="http://exampledomain.com">Example Anchor Text</a> Я могу извлечь коды: href, anchor, rel, class и т. …
03 авг '18 в 16:16
1
ответ
Передача URL ответа Scrapy в Selenium, а затем ответ Selenium обратно в Scrapy
Как передать URL ответа Scrapy на селен, а затем ответ селеном обратно на Scrapy У меня есть этот паук Scrapy first.py: # -*- coding: utf-8 -*- import scrapy import re import json class FirstSpider(scrapy.Spider): name = "first" allowed_domains = ["…
13 ноя '16 в 13:11
1
ответ
Динамическое изменение приоритета планировщика запросов Scrapy
Я использую scrapy, чтобы выполнить тест на внутреннем веб-приложении. После того, как все мои тесты выполнены, я использую CrawlSpider для проверки везде, и для каждого ответа я запускаю валидатор HTML и ищу 404 медиа-файла. Это работает очень хоро…
18 май '13 в 16:08
1
ответ
Разбор HTML-элементов
Я пытаюсь перенести веб-форум, где у меня нет контроля над базой данных и т. Д., И использую Scrapy, чтобы собирать фрагменты. Он основан на старом форуме phpBB 2.x. Это не очень хорошо структурировано, поэтому несколько проблем. Теперь у меня есть …
28 сен '18 в 19:39
0
ответов
Scrapy не пишет в столбцах postgresql
У меня есть серверная часть django с базой данных PostgreSQL. Я сделал скребок для заполнения базы данных, но проблема заключается в печати результатов в консоли, а не в базе данных, потому что я не вижу их в интерфейсе администратора Django. Возмож…
14 окт '18 в 17:46
1
ответ
Как изменить xpath из моего кода для получения необходимых данных
Так что у меня есть scrap, который извлекает данные из тега, а затем записывает их в CSV. Теперь мне нужно изменить xpath, чтобы он мог читать переменную, подобную приведенной ниже. Из "var digitalData" мне понадобятся данные из "продукта". Я выложу…
29 авг '18 в 20:52
1
ответ
Как извлечь URL, на котором сейчас находится мой сканер?
Я делаю веб-сканер с использованием Scrapy Framework в Python. Основная идея заключается в том, что сканер извлекает некоторые данные со страницы, если данные соответствуют некоторым критериям, сканер должен извлечь URL-адрес, на котором он находитс…
27 ноя '16 в 00:31
1
ответ
Почему содержание ответа Scrap повышать не текст
При использовании scrapy для сканирования домашнего веб-сайта часто возникает ошибка AttributeError**** Содержимое ответа не является текстовым. Я не знаю, как его решить. import scrapy from scrapy.http import Request from ershoufang.items import Er…
25 июн '17 в 06:18
1
ответ
Извлечение данных из таблицы с помощью Scrapy
У меня есть этот стол <table class="specs-table"> <tbody> <tr> <td colspan="2" class="group">Sumary</td> </tr> <tr> <td class="specs-left">Name</td> <td class="specs-right">ROG GL552JX <…
01 июн '16 в 19:03
1
ответ
Как заполнить scrapy.Field как словарь
Я строю скребок для http://www.apkmirror.com/, используя Scrapy (с пауком SitemapSpider). Пока что работают следующие: DEBUG = True from scrapy.spiders import SitemapSpider from apkmirror_scraper.items import ApkmirrorScraperItem class ApkmirrorSite…
13 апр '17 в 15:53
1
ответ
Отказ в соединении при использовании Scrapy с Selenium
Я пытаюсь использовать Scrapy с Selenium, чтобы очистить страницу с динамически генерируемым содержимым JavaScript ( http://huati.weibo.com/). Я постоянно получаю отказ в соединении, но я не уверен, что я что-то делаю или сам сервер (который находит…
23 ноя '13 в 15:58
2
ответа
Создание DataFrame из очищенных данных с использованием Scrapy
У меня проблема с созданием файла данных типа CSV из очищенных данных. Мне удалось очистить данные из таблицы, но когда дело доходит до записи, я не могу сделать это в течение нескольких дней. Я использую предметы и пытаюсь записать их во фрейм данн…
06 июл '17 в 02:34
2
ответа
Как скрести все URL изображения и alt тег в нем с помощью scrapy
Моя цель - сканировать URL-адреса изображений и теги alt изображений с помощью scrapy . Я пробовал много комбинаций, но все еще не достиг этого. Вот что я пробовал def parse_item(self, response): sel = Selector(response) item = imageItem() item['cra…
02 май '14 в 13:26
1
ответ
Scrapy + Selenium Issue
Я пытаюсь почистить сайт известного британского ритейлера, используя как Selenium, так и Scrapy (см. Код ниже). Я получаю [scrapy.core.scraper] ERROR: Spider error processing и понятия не имею, что еще делать (было у него три часа или около того). С…
26 авг '17 в 15:35
0
ответов
Как удалить данные в аутентифицированном сеансе на динамической странице?
Я кодировал паука Scrapy, используя библиотеку loginform ( http://blog.scrapinghub.com/2012/10/26/filling-login-forms-automatically/), и взял этот пост в качестве справочного материала для динамических веб-страниц. Это код: class MySpider(CrawlSpide…
22 июл '15 в 16:05
1
ответ
Асинхронный HTTP-сервер с scrapy и mongodb в python
Я в основном пытаюсь запустить HTTP-сервер, который будет отвечать контентом с веб-сайта, который я могу сканировать с помощью Scrapy. Чтобы начать сканирование веб-сайта, мне нужно войти на него и для этого мне нужно получить доступ к БД с учетными…
25 июл '18 в 18:37
1
ответ
pagination - xpath для сканера в питоне
На самом деле я работаю над сканером, использующим scrapy в python, и я почти закончил, у меня просто небольшая проблема. Сайт, использующий нумерацию страниц: <div class="pagination toolbarbloc"> <ul> <li class="active"><span&g…
11 сен '17 в 05:03