Описание тега scrapinghub
NoneA web scraping development and services company, supplies cloud-based web crawling platforms.
2
ответа
Как установить xvfb на Scrapinghub для использования Selenium?
Я использую Python-Selenium в своем пауке (Scrapy), для использования Selenium я должен установить xvfb на Scrapinghub. когда я использую apt-get для установки xvfb у меня есть это сообщение об ошибке: E: Could not open lock file /var/lib/dpkg/lock …
09 июн '17 в 15:17
1
ответ
Добавить настройки в scrapinghub spider
Я пытаюсь включить mongodb в моем пауке на платформе scrapinghub. Для этого я должен включить расширение через настройку "EXTENSIONS" в пользовательском интерфейсе. Но во время работы паука я получаю следующую ошибку: ValueError: Some paths in "{'sc…
23 июн '15 в 14:18
1
ответ
Не удалось выполнить задание Scrapinghub - невозможно диагностировать
Паук остановился в середине обхода (после 7-часового прогона 20 000 запросов). Статус задания "провал". Даже если в журнале нет сообщений об ошибках. Журнал выглядит так, как будто код просто перестал работать в определенном диапазоне строк кода без…
30 июл '17 в 20:25
0
ответов
Scrapinghub просканировал 0 страниц (при 0 страницах / мин)
Я разработал простой скрап-проект для сканирования веб-сайта. Сканер отлично работает на моем локальном компьютере, но когда я пытаюсь развернуть его в облаке Scrapy, предоставленном scrapinghub.com, паук показывает 0 просканированных страниц и чере…
04 дек '17 в 12:08
1
ответ
Экспорт Scrapy JSON Feed - Сбой для динамического FEED_URI для AWS S3 с использованием ScrapingHub
Я написал скребок, который записывает данные, используя JsonItemExporter и я разработал, как экспортировать эти данные в мой AWS S3, используя следующие настройки Spider в ScrapingHub AWS_ACCESS_KEY_ID = AAAAAAAAAAAAAAAAAAAA AWS_SECRET_ACCESS_KEY = …
15 дек '17 в 00:54
1
ответ
Альтернатива с открытым исходным кодом SCRAPY CLOUD от scrapinghub.com
Я начинаю использовать Scrapy Framework для задач сканирования / сканирования. Теперь мне нужно контролировать и управлять своими пауками. Я нашел Scrapy Cloud, решение от www.scrapinghub.com, но это решение не с открытым исходным кодом. Поэтому я с…
05 сен '15 в 12:00
0
ответов
Как использовать Crawlera с Splash?
Я пытаюсь загрузить страницу, используя Crawlera и Splash, но безуспешно. Редко я получаю ответ успеха, но без рендеринга Js. Чаще всего я получаю пустой результат, как это <html> <head> </head> <body> </body? </html>…
18 окт '17 в 08:53
0
ответов
Скриптовый скрипт останавливается после определенных запросов
У меня есть сценарий scrapinghub. Скребок принимает один аргумент в виде CSV-файла, в котором были сохранены URL-адреса. Сценарий выполняется без ошибок, но проблема в том, что он не удаляет все элементы из URL. Я понятия не имею, почему это происхо…
31 май '17 в 07:27
1
ответ
Scrapinghub: обработка ошибок Dict_key | проверьте, существует ли ключ
Мне потребовалось некоторое время, чтобы разобраться в логике python-scrapinghubs и в том, как она взаимодействует с Scrapinghubs API, но если я достиг прогресса в моем текущем устранении неполадок... Используя Scrapy, я перечислил несколько веб-скр…
18 апр '17 в 02:59
1
ответ
Выполнить неудачный вход на некоторых веб-сайтах с помощью ScrapingHub's Dash
Когда я пытаюсь выполнить вход с помощью ScrapingHub's Dash, я получаю следующую ошибку на каком-то веб-сайте в разделе "log": scraping hub exceptions.KeyError: 'No input element with the name None' Как исправить попадание? РЕДАКТИРОВАТЬ: Здесь мето…
10 дек '13 в 10:02
1
ответ
Длительность запроса scrapy постепенно увеличивается при очистке множества разных доменов на scrappinghub
Я использую scrapy на scrappinghub, чтобы удалить несколько тысяч веб-сайтов. При очистке одного сайта длительность запросов остается довольно короткой (< 100 мс). Но у меня также есть паук, который отвечает за "проверку" около 10 тысяч URL-адресов …
29 авг '18 в 23:47
0
ответов
Как "добавить" geckodriver в PATH на ScrapingHub?
Я использую python2 для просмотра веб-страниц, я написал паука, который использует Firefox без головы (без графического интерфейса пользователя), чтобы зайти на сайт, войти в свою учетную запись и, кроме того, взаимодействовать с сайтом, нажимая кно…
21 янв '19 в 17:46
0
ответов
Браузер не поддерживается некоторыми функциями Portia ( Visual Scraper) на основе Scrapy
Я успешно установил Portia и начал запускать его по http://localhost:9001/. Он работал совершенно нормально для нескольких моих проектов, а затем, когда я снова открыл его через некоторое время, он дал мне эту ошибку: К сожалению, ваш браузер не под…
15 фев '19 в 12:33
2
ответа
Не удается развернуть на ScrapingHub несуществующий SyntaxError: неверный синтаксис
У меня есть Scrapy Spider, который отлично работает, если я позвоню: scrapy crawl . Когда я пытаюсь развернуть его на ScrapingHub.com, возникает ошибка SyntaxError, которую я не могу исправить. Я не могу понять, что происходит. Там нет синтаксическо…
27 фев '19 в 21:46
0
ответов
Scrapinghub включает мои результаты в журнал, а не в элемент
У меня есть работающий проект паука для извлечения содержимого URL (нет CSS). Я просканировал несколько наборов данных и сохранил их в серии файлов.csv. Сейчас я пытаюсь настроить его на работу в Scrapinghub, чтобы в конечном итоге очистить его. Пок…
28 фев '19 в 09:41
1
ответ
Всплеск (/scrapinghub) - ожидание = максимум 10
Я использую скребковый всплеск для рендеринга страниц JavaScript. Это действительно отличный инструмент, но я не понимаю, почему максимальное значение для ожидания равно 10. Есть ли возможность установить более высокие значения? Большое спасибо. С н…
30 мар '15 в 08:09
1
ответ
Последовательный порядок для вывода товара | Scrapy
Я использую ScrapingHub API и использую shub для развертывания моего проекта. Тем не менее, результат пунктов, как показано: К сожалению, мне это нужно в следующем порядке -> Название, Дата публикации, Описание, Ссылка. Как я могу получить выходные …
19 июн '17 в 18:06
1
ответ
Удалить пауков из скребка
Я новый пользователь scrapinghub. Я уже искал в Google и прочитал документы Scrapinghub, но я не мог найти информацию об удалении пауков из проекта. Возможно ли это как? Я не хочу заменять паука, я хочу удалить / удалить его из списка пауков scrapin…
04 май '15 в 10:01
1
ответ
Как написать rejax и xpath для ссылки ниже?
Вот ссылка https://www.google.com/about/careers/search которой я должен извлечь контент в соответствии с информацией о работе. Job details Team or role: Software Engineering // How to write xapth Job type: Full-time // How to write xapth Last update…
13 ноя '14 в 08:03
0
ответов
Невозможно использовать прокси Crawler в Scrapy на Scrapinghub
У меня есть проект scrapy, развернутый в облаке Scrapinghub. Этот проект работает отлично, если я не использую прокси. Но я должен использовать прокси. К вашему сведению, Crawlera является основным проектом Scrapinghub, я попробовал 2 способа исполь…
30 сен '16 в 10:08