Описание тега scrapy-pipeline

Вопросы с тегом

2 ответа

Используйте scrapy как генератор предметов

У меня есть существующий скрипт (main.py), который требует очистки данных. Я запустил скрап-проект для получения этих данных. Есть ли способ, как main.py может извлекать данные из scrapy в качестве генератора элементов, а не сохранять данные с помощ…

python scrapy scrapy-pipeline

15 сен '16 в 09:53

0 ответов

Scrapy - передает данные в базу данных, если найдено ключевое слово

Проще говоря, я очищаю веб-данные в Scrapy. Мне нужно проанализировать очищенные данные для ключевых слов / регулярных выражений и, если они совпадают, передать данные в базу данных. Если не найдено, бросьте. Мой вопрос: должен ли я сделать это из S…

python scrapy scrapy-spider scrapy-pipeline

18 янв '17 в 16:04

1 ответ

Проверьте, существует ли идентификатор в MongoDB с помощью pymongo и scrapy

Я настроил паука со скрапом, который отправляет данные в базу данных MongoDB. Я хочу проверить, существует ли идентификатор, чтобы в этом случае я мог $ addToSet для определенного ключа (в противном случае Mongo отклонит вставку, поскольку _id уже с…

mongodb python-2.7 scrapy scrapy-pipeline

11 ноя '15 в 17:44

1 ответ

Трубопровод для элемента не JSON-сериализуемый

Я пытаюсь записать вывод очищенного XML в JSON. Царапина не выполняется из-за невозможности сериализации. Из этого вопроса рекомендуется, что вам нужно построить конвейер, ответ не предоставлен вне рамок для вопроса SO scrapy serializer Обращаясь к …

python json serialization scrapy scrapy-pipeline

24 янв '16 в 04:51

1 ответ

Паук Scrapy, который получает две картинки на одной странице и называет их по-разному

Я новичок в Python и Scrapy, так что я не уверен, что выбрал лучший метод для этого; но моя цель - получить две (или более) разных картинки на странице и по-разному называть картинки. Как я должен настроить трубопровод, я должен сделать комбинирован…

python scrapy scrapy-spider scrapy-pipeline

08 мар '16 в 21:39

2 ответа

Магазин Scrapy возвращал элементы в переменных для использования в основном скрипте

Я новичок в Scrapy и хочу попробовать следующее: извлечь некоторые значения из веб-страницы, сохранить их в переменной и использовать в моем основном скрипте. Поэтому я следовал их руководству и изменил код для своих целей: import scrapy from scrapy…

python web-scraping scrapy scrapy-spider scrapy-pipeline

27 дек '17 в 13:51

1 ответ

Ошибка синтаксиса SQL конвейера Scrapy

У меня есть паук, который берет URL-адреса из БД MySQL и использует их в качестве start_urls для очистки, который, в свою очередь, захватывает любое количество новых ссылок с очищенных страниц. Когда я устанавливаю конвейер на INSERT и start_url, и …

python scrapy scrapy-pipeline

13 апр '17 в 16:40

1 ответ

Выход слияния Scrapy на поле

У меня есть вывод Scrapy, как это: [{'gender': 'women', 'name': 'NEW IN: CLOTHING', 'products': [{'name': 'Free People Cocoon Multi Way Neck Top', 'price': {'currency': 'GBP', 'outlet': '40.0', 'retail': '58.0'}}]}, {'gender': 'women', 'name': 'NEW …

python scrapy scrapy-spider scrapy-pipeline

05 июн '17 в 04:17

2 ответа

Объект Scrapy и Python Reponse не имеет атрибута "xpath"

РЕДАКТИРОВАТЬ 2 - Поскольку мои папки смешались с именами, которые я выбрал, я случайно разместил неправильный код. Пожалуйста, смотрите ниже точный код каждого файла для правильной папки, содержащей все мои файлы для этого. настройки # -*- coding: …

python web-scraping scrapy scrapy-spider scrapy-pipeline

14 июн '17 в 18:42

1 ответ

Конвейер для удаления значений None

Мой паук дает определенные данные, но иногда он не находит данные. Вместо установки условия, такого как ниже: if response.xpath('//div[@id="mitten"]//h1/text()').extract_first(): result['name'] = response.xpath('//div[@id="mitten"]//h1/text()').extr…

python python-2.7 scrapy scrapy-pipeline

05 мар '18 в 09:18

1 ответ

AttributeError: у объекта 'CSVPipeline' нет атрибута 'spider_closed'

Я следовал инструкции в http://stackru.com/questions/20753358/how-can-i-use-the-fields-to-export-attribute-in-baseitemexporter-to-order-my-scr/20758558#20758558 и попытался экспортировать поле элементов в порядке. Но терминал просто вывод crawler.si…

python scrapy-pipeline

22 янв '17 в 08:26

0 ответов

Scrapy - вызовет новый процесс сканирования, когда сканер завершит работу

Я ищу URL-адреса - xxx.com/a, xxx.com/b и т. Д., Найденные из двух start_urls xxx.com/LISTA и xxx / com / LISTB После завершения этого сканера я хочу также дополнительно сканировать страницы xxx.com/x_in_database и xxx.com/y_in_database, чьи URL-адр…

python scrapy web-crawler scrapy-spider scrapy-pipeline

24 фев '16 в 00:59

1 ответ

Python Scrapy Pipeline Редактировать последний элемент?

Я использую конвейер в Scrapy для вывода результатов в виде файла JSON. Конвейер ставит запятую после каждого очищенного элемента, однако я хочу отбросить запятую для последнего элемента. Есть способ сделать это? Это конвейер: class ExamplePipeline(…

python scrapy scrapy-pipeline

15 окт '18 в 00:28

3 ответа

Scrapy Pipeline не вставляется в MySQL

Я пытаюсь создать небольшое приложение для университетского проекта с помощью Scrapy. Паук очищает элементы, но мой конвейер не вставляет данные в базу данных MySQL. Чтобы проверить, не работает ли конвейер или не работает реализация pymysl, я напис…

mysql web-scraping scrapy pymysql scrapy-pipeline

27 апр '17 в 11:11

0 ответов

Scrapinghub включает мои результаты в журнал, а не в элемент

У меня есть работающий проект паука для извлечения содержимого URL (нет CSS). Я просканировал несколько наборов данных и сохранил их в серии файлов.csv. Сейчас я пытаюсь настроить его на работу в Scrapinghub, чтобы в конечном итоге очистить его. Пок…

json scrapy scrapy-spider scrapy-pipeline scrapinghub

28 фев '19 в 09:41

1 ответ

Настройка ITEM_PIPELINE не может быть переопределена с терминала

В моем settings.py у меня есть: ITEM_PIPELINES = { 'turing.pipelines.InitFieldsNotInitializedPipeline': 299, 'turing.pipelines.SetNoneIfFieldEmptyPipeline': 300, 'turing.pipelines.CheckCategoryPipeline': 301, 'turing.pipelines.CheckContactPipeline':…

scrapy scrapy-spider scrapyd scrapy-pipeline

27 май '16 в 15:48

0 ответов

Scrapy: загрузка изображений в динамическую папку для каждого элемента и обрезка этих изображений

Я пытаюсь найти способ загрузки изображений в отдельные папки для каждого элемента и установить имя папки на основе поля элемента. Я нашел решение для динамических папок, и оно отлично работает здесь: Как загрузить изображения Scrapy в динамическую …

image scrapy crop scrapy-pipeline

30 окт '18 в 09:30

1 ответ

Конвейер Python Scrapy вдруг не работает

Это очень странно, я написал код scrapy с его конвейером и сканировал огромное количество данных, он всегда работал хорошо. Сегодня, когда я перезапускаю тот же код, он вдруг вообще не работает. Вот подробности: Мой паук - base_url_spider.py import …

python-3.x scrapy scrapy-pipeline

24 апр '17 в 22:42

1 ответ

Scrapy Pipeline для обновления mysql для каждого start_url

У меня есть паук, который читает start_urls из базы данных MySQL и удаляет неизвестное количество ссылок с каждой страницы. Я хочу использовать pipelines.py для обновления базы данных с помощью очищенных ссылок, но я не знаю, как вернуть start_url о…

python scrapy scrapy-pipeline

13 апр '17 в 03:34

1 ответ

scrapyd несколько пауков, пишущих элементы в один файл

У меня есть сервер scrapyd с несколькими запущенными пауками одновременно, я запускаю пауков одного за другим, используя конечную точку schedule.json. Все пауки пишут содержимое в общий файл, используя конвейер class JsonWriterPipeline(object): def …

scrapy scrapy-spider scrapyd scrapy-pipeline

23 мар '16 в 15:47