Описание тега scrapy-pipeline
2
ответа
Используйте scrapy как генератор предметов
У меня есть существующий скрипт (main.py), который требует очистки данных. Я запустил скрап-проект для получения этих данных. Есть ли способ, как main.py может извлекать данные из scrapy в качестве генератора элементов, а не сохранять данные с помощ…
15 сен '16 в 09:53
0
ответов
Scrapy - передает данные в базу данных, если найдено ключевое слово
Проще говоря, я очищаю веб-данные в Scrapy. Мне нужно проанализировать очищенные данные для ключевых слов / регулярных выражений и, если они совпадают, передать данные в базу данных. Если не найдено, бросьте. Мой вопрос: должен ли я сделать это из S…
18 янв '17 в 16:04
1
ответ
Проверьте, существует ли идентификатор в MongoDB с помощью pymongo и scrapy
Я настроил паука со скрапом, который отправляет данные в базу данных MongoDB. Я хочу проверить, существует ли идентификатор, чтобы в этом случае я мог $ addToSet для определенного ключа (в противном случае Mongo отклонит вставку, поскольку _id уже с…
11 ноя '15 в 17:44
1
ответ
Трубопровод для элемента не JSON-сериализуемый
Я пытаюсь записать вывод очищенного XML в JSON. Царапина не выполняется из-за невозможности сериализации. Из этого вопроса рекомендуется, что вам нужно построить конвейер, ответ не предоставлен вне рамок для вопроса SO scrapy serializer Обращаясь к …
24 янв '16 в 04:51
1
ответ
Паук Scrapy, который получает две картинки на одной странице и называет их по-разному
Я новичок в Python и Scrapy, так что я не уверен, что выбрал лучший метод для этого; но моя цель - получить две (или более) разных картинки на странице и по-разному называть картинки. Как я должен настроить трубопровод, я должен сделать комбинирован…
08 мар '16 в 21:39
2
ответа
Магазин Scrapy возвращал элементы в переменных для использования в основном скрипте
Я новичок в Scrapy и хочу попробовать следующее: извлечь некоторые значения из веб-страницы, сохранить их в переменной и использовать в моем основном скрипте. Поэтому я следовал их руководству и изменил код для своих целей: import scrapy from scrapy…
27 дек '17 в 13:51
1
ответ
Ошибка синтаксиса SQL конвейера Scrapy
У меня есть паук, который берет URL-адреса из БД MySQL и использует их в качестве start_urls для очистки, который, в свою очередь, захватывает любое количество новых ссылок с очищенных страниц. Когда я устанавливаю конвейер на INSERT и start_url, и …
13 апр '17 в 16:40
1
ответ
Выход слияния Scrapy на поле
У меня есть вывод Scrapy, как это: [{'gender': 'women', 'name': 'NEW IN: CLOTHING', 'products': [{'name': 'Free People Cocoon Multi Way Neck Top', 'price': {'currency': 'GBP', 'outlet': '40.0', 'retail': '58.0'}}]}, {'gender': 'women', 'name': 'NEW …
05 июн '17 в 04:17
2
ответа
Объект Scrapy и Python Reponse не имеет атрибута "xpath"
РЕДАКТИРОВАТЬ 2 - Поскольку мои папки смешались с именами, которые я выбрал, я случайно разместил неправильный код. Пожалуйста, смотрите ниже точный код каждого файла для правильной папки, содержащей все мои файлы для этого. настройки # -*- coding: …
14 июн '17 в 18:42
1
ответ
Конвейер для удаления значений None
Мой паук дает определенные данные, но иногда он не находит данные. Вместо установки условия, такого как ниже: if response.xpath('//div[@id="mitten"]//h1/text()').extract_first(): result['name'] = response.xpath('//div[@id="mitten"]//h1/text()').extr…
05 мар '18 в 09:18
1
ответ
AttributeError: у объекта 'CSVPipeline' нет атрибута 'spider_closed'
Я следовал инструкции в http://stackru.com/questions/20753358/how-can-i-use-the-fields-to-export-attribute-in-baseitemexporter-to-order-my-scr/20758558#20758558 и попытался экспортировать поле элементов в порядке. Но терминал просто вывод crawler.si…
22 янв '17 в 08:26
0
ответов
Scrapy - вызовет новый процесс сканирования, когда сканер завершит работу
Я ищу URL-адреса - xxx.com/a, xxx.com/b и т. Д., Найденные из двух start_urls xxx.com/LISTA и xxx / com / LISTB После завершения этого сканера я хочу также дополнительно сканировать страницы xxx.com/x_in_database и xxx.com/y_in_database, чьи URL-адр…
24 фев '16 в 00:59
1
ответ
Python Scrapy Pipeline Редактировать последний элемент?
Я использую конвейер в Scrapy для вывода результатов в виде файла JSON. Конвейер ставит запятую после каждого очищенного элемента, однако я хочу отбросить запятую для последнего элемента. Есть способ сделать это? Это конвейер: class ExamplePipeline(…
15 окт '18 в 00:28
3
ответа
Scrapy Pipeline не вставляется в MySQL
Я пытаюсь создать небольшое приложение для университетского проекта с помощью Scrapy. Паук очищает элементы, но мой конвейер не вставляет данные в базу данных MySQL. Чтобы проверить, не работает ли конвейер или не работает реализация pymysl, я напис…
27 апр '17 в 11:11
0
ответов
Scrapinghub включает мои результаты в журнал, а не в элемент
У меня есть работающий проект паука для извлечения содержимого URL (нет CSS). Я просканировал несколько наборов данных и сохранил их в серии файлов.csv. Сейчас я пытаюсь настроить его на работу в Scrapinghub, чтобы в конечном итоге очистить его. Пок…
28 фев '19 в 09:41
1
ответ
Настройка ITEM_PIPELINE не может быть переопределена с терминала
В моем settings.py у меня есть: ITEM_PIPELINES = { 'turing.pipelines.InitFieldsNotInitializedPipeline': 299, 'turing.pipelines.SetNoneIfFieldEmptyPipeline': 300, 'turing.pipelines.CheckCategoryPipeline': 301, 'turing.pipelines.CheckContactPipeline':…
27 май '16 в 15:48
0
ответов
Scrapy: загрузка изображений в динамическую папку для каждого элемента и обрезка этих изображений
Я пытаюсь найти способ загрузки изображений в отдельные папки для каждого элемента и установить имя папки на основе поля элемента. Я нашел решение для динамических папок, и оно отлично работает здесь: Как загрузить изображения Scrapy в динамическую …
30 окт '18 в 09:30
1
ответ
Конвейер Python Scrapy вдруг не работает
Это очень странно, я написал код scrapy с его конвейером и сканировал огромное количество данных, он всегда работал хорошо. Сегодня, когда я перезапускаю тот же код, он вдруг вообще не работает. Вот подробности: Мой паук - base_url_spider.py import …
24 апр '17 в 22:42
1
ответ
Scrapy Pipeline для обновления mysql для каждого start_url
У меня есть паук, который читает start_urls из базы данных MySQL и удаляет неизвестное количество ссылок с каждой страницы. Я хочу использовать pipelines.py для обновления базы данных с помощью очищенных ссылок, но я не знаю, как вернуть start_url о…
13 апр '17 в 03:34
1
ответ
scrapyd несколько пауков, пишущих элементы в один файл
У меня есть сервер scrapyd с несколькими запущенными пауками одновременно, я запускаю пауков одного за другим, используя конечную точку schedule.json. Все пауки пишут содержимое в общий файл, используя конвейер class JsonWriterPipeline(object): def …
23 мар '16 в 15:47