Описание тега scraper
Синоним слова [web-scraping]
2
ответа
Python Web Scraper - Экспорт таблиц в Excel
Привет, ребята, Я использовал stackru, чтобы узнать, как написать свой первый скрипт на Python. На самом деле я создаю веб-мастер, и мне нужна ваша помощь / мнение / руководство, чтобы продолжить мой маленький проект. До сих пор я мог войти на сайт,…
19 янв '17 в 12:15
1
ответ
Cheerio не может найти IMG SRC
Мой черио-код, похоже, не работает. Я пытаюсь получить СРК от <img> тег найден внутри imgWrap div по указанной ссылке. Я пытался переписать .imgWrap как .imgWrap img и удаление find но это тоже не сработало... Тем не менее, если я делаю $(elem…
23 дек '17 в 21:42
1
ответ
Роботы не разрешают обходной путь
Я пытаюсь создать утилиту, но когда я запускаю следующий код, он говорит, что роботы запрещены. Это для моих внутренних целей, но есть ли обходной путь для Robots Disallowed? Я тестирую его на этом сайте: http://80apptester.80legs.com/ и он не прохо…
22 июл '15 в 19:38
1
ответ
Какое влияние на повышение CloseSpider в Scrapy?
Я хочу знать, какое влияние поднимает CloseSpider. В документации http://doc.scrapy.org/en/latest/topics/exceptions.html об этом нет информации. Как известно, scrapy обрабатывает несколько запросов одновременно. Что если это исключение будет вызвано…
14 июл '15 в 18:35
3
ответа
Как извлечь значение встроенного атрибута из предыдущего значения атрибута в запросе XPath?
Я пытаюсь "выбрать" ссылку из атрибута onclick в следующей части HTML <span onclick="Javascript:document.quickFindForm.action='/blah_blah'" class="specialLinkType"><img src="blah"></span> но не могу получить дальше, чем следующий X…
02 июл '11 в 01:14
1
ответ
Задержка в цикле for для http-запроса
Я только начинаю с JS и Node.js. Я пытаюсь построить простой скребок в качестве первого проекта, используя Node.js и некоторые модули, такие как request а также cheerio, Я хотел бы добавить задержку в 5 секунд между каждым запросом http для каждого …
10 мар '17 в 11:34
8
ответов
Python: BeautifulSoup извлекает текст из тега привязки
Я хочу извлечь текст из следующего источника тега image и текста тега привязки, который находится внутри данных класса div. Мне удалось извлечь img src, но у меня возникли проблемы при извлечении текста из тега привязки. <a class="title" href="ht…
30 июл '12 в 06:32
1
ответ
Как соскоблить продукты с сайта рубином / анемоном / нокогири
Можно ли соскрести продукты с сайта электронной коммерции, используя анемоновые и нокогири либс в рубине? Я понимаю, как извлечь данные, которые мне нужны, с каждой страницы продукта, используя nokogiri, но я не могу понять, как заставить анемон /no…
20 май '12 в 07:02
1
ответ
Как передать URL в веб-форму на этом сайте
http://www.iata.org/publications/Pages/code-search.aspx Хотел бы иметь возможность передавать коды авиакомпаний в URL, чтобы я мог просматривать несколько. Я надеялся передать что-то вроде "? Aviationcode=AL" и т. Д. И почистить HTML-код для получе…
15 окт '17 в 23:01
1
ответ
Красивый суп вложенный div (добавление дополнительной функции)
Я пытаюсь извлечь название компании, адрес и почтовый индекс из [www.quicktransportsolutions.com][1], Я написал следующий код, чтобы отсканировать сайт и вернуть нужную мне информацию. import requests from bs4 import BeautifulSoup def trade_spider(m…
20 сен '14 в 23:52
1
ответ
Python Link Scraper
focus_Search = raw_input("Focus Search ") url = "https://www.google.com/search?q=" res = requests.get(url + focus_Search) print("You Just Searched") res_String = res.text #Now I must get ALL the sections of code that start with "<a href" and end…
12 май '16 в 21:32
1
ответ
Почему тег <from> исчезает при попытке соскоблить с него? Scrapy
Я пытаюсь собрать некоторые данные из Amazon и мне нужно отсортировать книги по количеству рецензий на этой странице:www.amazon.com/s/ref=lp_283155_nr_n_0? Fst=as%3Aoff&rh=n%3A283155%2Cn%3A!1000%2Cn%3A1&bbn=1000&ie=UTF8&qid=145796444…
14 мар '16 в 14:21
1
ответ
Как я могу сделать scrapy проверку поля и игнорировать поиск по ссылке
import scrapy from scrapy.selector import HtmlXPathSelector from scrapy.http.request import Request class SunBizSpider(scrapy.Spider): name = 'sunbiz' start_urls = ['http://search.sunbiz.org/Inquiry/CorporationSearch/SearchResults?inquiryType=Entity…
03 ноя '15 в 16:11
0
ответов
Google соскребает ограничения изнутри собственными
Я написал скребок для Google, чтобы получить результаты, но когда я делаю это с моего сервера, есть ограничение в 500 запросов / день. Если я делаю это из своего офиса (собственный зарегистрированный как зрелый), кажется, нет никаких ограничений. Та…
05 ноя '17 в 19:03
1
ответ
Цитаты Мессинг до Python Scraper
Я пытаюсь очистить все данные внутри div следующим образом. Однако цитаты сбивают меня с толку. <div id="address"> <div class="info">14955 Shady Grove Rd.</div> <div class="info">Rockville, MD 20850</div> <div class=…
29 дек '13 в 03:00
2
ответа
PHP Curl с вложенным файлом
Я пытаюсь смоделировать PHP CURL POST, который требует загрузки файла. Вот HTML-форма с веб-сайта, который я пытаюсь отправить: http://pastebin.com/X6Y0mmfP Файл, который мне нужно загрузить, это "domains.txt", который находится в том же каталоге, ч…
29 дек '13 в 15:08
1
ответ
Chrome показывает другой HTML, чем мое приложение RequestJS & CheerioJS
Мое приложение-скребок выполняет поиск URL-адреса Vimeo с прикрепленной к нему строкой запроса, которая 'http://vimeo.com/search?q=angularjs' Когда я загружаю этот URL в Chrome, я вижу несколько элементов, которые не отображаются с request() этот UR…
28 сен '13 в 23:30
1
ответ
Как пойти найти пакеты онлайн?
Я пытаюсь запустить программу go с помощью LiteIDE x22, но получаю сообщение C:/Go/bin/go.exe build [C:/Users/admins/Desktop/desktp/worm_scraper-master] worm_scraper.go:11:2: cannot find package "github.com/codegangsta/cli" in any of: C:\Go\src\pkg\…
27 июн '14 в 16:19
1
ответ
Содержимое Xpath не сохранено
Это может быть просто идиотская ошибка в коде, которую я еще не обнаружил, но это заняло у меня довольно много времени: при синтаксическом анализе сайтов с использованием nokogiri и xpath и попытке сохранить содержимое xpaths в файл.csv, CSV-файл им…
13 ноя '12 в 10:51
0
ответов
Может ли кто-нибудь помочь мне со мной скребок изображения PHP?
Когда я делаю один веб-сайт одновременно, он работает просто отлично, но когда я делаю больше одновременно, я получаю следующую ошибку: Предупреждение: file_get_contents(): php_network_getaddresses: сбой getaddrinfo: Хост находится на выходных. в C:…
09 фев '17 в 09:16