Описание тега scrapinghub

NoneA web scraping development and services company, supplies cloud-based web crawling platforms.
2 ответа

Как установить xvfb на Scrapinghub для использования Selenium?

Я использую Python-Selenium в своем пауке (Scrapy), для использования Selenium я должен установить xvfb на Scrapinghub. когда я использую apt-get для установки xvfb у меня есть это сообщение об ошибке: E: Could not open lock file /var/lib/dpkg/lock …
1 ответ

Добавить настройки в scrapinghub spider

Я пытаюсь включить mongodb в моем пауке на платформе scrapinghub. Для этого я должен включить расширение через настройку "EXTENSIONS" в пользовательском интерфейсе. Но во время работы паука я получаю следующую ошибку: ValueError: Some paths in "{'sc…
23 июн '15 в 14:18
1 ответ

Не удалось выполнить задание Scrapinghub - невозможно диагностировать

Паук остановился в середине обхода (после 7-часового прогона 20 000 запросов). Статус задания "провал". Даже если в журнале нет сообщений об ошибках. Журнал выглядит так, как будто код просто перестал работать в определенном диапазоне строк кода без…
30 июл '17 в 20:25
0 ответов

Scrapinghub просканировал 0 страниц (при 0 страницах / мин)

Я разработал простой скрап-проект для сканирования веб-сайта. Сканер отлично работает на моем локальном компьютере, но когда я пытаюсь развернуть его в облаке Scrapy, предоставленном scrapinghub.com, паук показывает 0 просканированных страниц и чере…
04 дек '17 в 12:08
1 ответ

Экспорт Scrapy JSON Feed - Сбой для динамического FEED_URI для AWS S3 с использованием ScrapingHub

Я написал скребок, который записывает данные, используя JsonItemExporter и я разработал, как экспортировать эти данные в мой AWS S3, используя следующие настройки Spider в ScrapingHub AWS_ACCESS_KEY_ID = AAAAAAAAAAAAAAAAAAAA AWS_SECRET_ACCESS_KEY = …
15 дек '17 в 00:54
1 ответ

Альтернатива с открытым исходным кодом SCRAPY CLOUD от scrapinghub.com

Я начинаю использовать Scrapy Framework для задач сканирования / сканирования. Теперь мне нужно контролировать и управлять своими пауками. Я нашел Scrapy Cloud, решение от www.scrapinghub.com, но это решение не с открытым исходным кодом. Поэтому я с…
05 сен '15 в 12:00
0 ответов

Как использовать Crawlera с Splash?

Я пытаюсь загрузить страницу, используя Crawlera и Splash, но безуспешно. Редко я получаю ответ успеха, но без рендеринга Js. Чаще всего я получаю пустой результат, как это <html> <head> </head> <body> </body? </html&gt…
18 окт '17 в 08:53
0 ответов

Скриптовый скрипт останавливается после определенных запросов

У меня есть сценарий scrapinghub. Скребок принимает один аргумент в виде CSV-файла, в котором были сохранены URL-адреса. Сценарий выполняется без ошибок, но проблема в том, что он не удаляет все элементы из URL. Я понятия не имею, почему это происхо…
31 май '17 в 07:27
1 ответ

Scrapinghub: обработка ошибок Dict_key | проверьте, существует ли ключ

Мне потребовалось некоторое время, чтобы разобраться в логике python-scrapinghubs и в том, как она взаимодействует с Scrapinghubs API, но если я достиг прогресса в моем текущем устранении неполадок... Используя Scrapy, я перечислил несколько веб-скр…
18 апр '17 в 02:59
1 ответ

Выполнить неудачный вход на некоторых веб-сайтах с помощью ScrapingHub's Dash

Когда я пытаюсь выполнить вход с помощью ScrapingHub's Dash, я получаю следующую ошибку на каком-то веб-сайте в разделе "log": scraping hub exceptions.KeyError: 'No input element with the name None' Как исправить попадание? РЕДАКТИРОВАТЬ: Здесь мето…
10 дек '13 в 10:02
1 ответ

Длительность запроса scrapy постепенно увеличивается при очистке множества разных доменов на scrappinghub

Я использую scrapy на scrappinghub, чтобы удалить несколько тысяч веб-сайтов. При очистке одного сайта длительность запросов остается довольно короткой (< 100 мс). Но у меня также есть паук, который отвечает за "проверку" около 10 тысяч URL-адресов …
29 авг '18 в 23:47
0 ответов

Как "добавить" geckodriver в PATH на ScrapingHub?

Я использую python2 для просмотра веб-страниц, я написал паука, который использует Firefox без головы (без графического интерфейса пользователя), чтобы зайти на сайт, войти в свою учетную запись и, кроме того, взаимодействовать с сайтом, нажимая кно…
21 янв '19 в 17:46
0 ответов

Браузер не поддерживается некоторыми функциями Portia ( Visual Scraper) на основе Scrapy

Я успешно установил Portia и начал запускать его по http://localhost:9001/. Он работал совершенно нормально для нескольких моих проектов, а затем, когда я снова открыл его через некоторое время, он дал мне эту ошибку: К сожалению, ваш браузер не под…
2 ответа

Не удается развернуть на ScrapingHub несуществующий SyntaxError: неверный синтаксис

У меня есть Scrapy Spider, который отлично работает, если я позвоню: scrapy crawl . Когда я пытаюсь развернуть его на ScrapingHub.com, возникает ошибка SyntaxError, которую я не могу исправить. Я не могу понять, что происходит. Там нет синтаксическо…
0 ответов

Scrapinghub включает мои результаты в журнал, а не в элемент

У меня есть работающий проект паука для извлечения содержимого URL (нет CSS). Я просканировал несколько наборов данных и сохранил их в серии файлов.csv. Сейчас я пытаюсь настроить его на работу в Scrapinghub, чтобы в конечном итоге очистить его. Пок…
1 ответ

Всплеск (/scrapinghub) - ожидание = максимум 10

Я использую скребковый всплеск для рендеринга страниц JavaScript. Это действительно отличный инструмент, но я не понимаю, почему максимальное значение для ожидания равно 10. Есть ли возможность установить более высокие значения? Большое спасибо. С н…
30 мар '15 в 08:09
1 ответ

Последовательный порядок для вывода товара | Scrapy

Я использую ScrapingHub API и использую shub для развертывания моего проекта. Тем не менее, результат пунктов, как показано: К сожалению, мне это нужно в следующем порядке -> Название, Дата публикации, Описание, Ссылка. Как я могу получить выходные …
19 июн '17 в 18:06
1 ответ

Удалить пауков из скребка

Я новый пользователь scrapinghub. Я уже искал в Google и прочитал документы Scrapinghub, но я не мог найти информацию об удалении пауков из проекта. Возможно ли это как? Я не хочу заменять паука, я хочу удалить / удалить его из списка пауков scrapin…
04 май '15 в 10:01
1 ответ

Как написать rejax и xpath для ссылки ниже?

Вот ссылка https://www.google.com/about/careers/search которой я должен извлечь контент в соответствии с информацией о работе. Job details Team or role: Software Engineering // How to write xapth Job type: Full-time // How to write xapth Last update…
0 ответов

Невозможно использовать прокси Crawler в Scrapy на Scrapinghub

У меня есть проект scrapy, развернутый в облаке Scrapinghub. Этот проект работает отлично, если я не использую прокси. Но я должен использовать прокси. К вашему сведению, Crawlera является основным проектом Scrapinghub, я попробовал 2 способа исполь…
30 сен '16 в 10:08