Описание тега scraperwiki

Описание тега Вопросы с тегом

ScraperWiki - это онлайн-инструмент для очистки экрана.

0 ответов

ASPX запрашивает эмуляцию входа в браузер

Я пытаюсь сделать пост на веб-странице aspx. Я успешно выполнил вход в систему и безуспешно пытаюсь получить содержимое страницы. После входа в систему страница переходит к redirect tmp.aspx, тогда он показывает вам главную страницу. Мой код в насто…

01 ноя '12 в 00:44

1 ответ

Данные Proxy / Fetch из других стран

Некоторые веб-сайты требуют, чтобы у нас был определенный IP-адрес для отображения определенной информации, например. реклама для страны X. Я хотел бы знать, возможно ли использовать прокси (предпочтительно ruby one) с моим сценарием ruby @scrap…

ruby web-scraping proxy scraperwiki

16 фев '13 в 14:39

2 ответа

Почему мой канал KML больше не работает с Картами Google?

Я действительно смущен. У меня есть канал KML по адресу https://views.scraperwiki.com/run/hackney_council_planning_kml_output/? ... Который прекрасно работал с Google Maps до нескольких недель назад: http://maps.google.com/maps?q=https://views.scrap…

validation google-maps kml scraperwiki

19 апр '12 в 22:53

1 ответ

Почему этот ScraperWiki для сайта ASPX возвращает только одну и ту же страницу результатов поиска?

Я пытаюсь очистить ASP-сайт с помощью инструментов ScraperWiki. Я хочу получить список BBS в конкретном коде области с веб-сайта BBSmates.com. Сайт отображает 20 результатов поиска BBS за раз, поэтому мне нужно будет заполнить форму, чтобы перейти с…

python asp.net web-scraping mechanize scraperwiki

29 окт '12 в 01:45

1 ответ

Очистка PDF с помощью ScraperWiki и получение ошибки "Не определено"

Я пытаюсь очистить этот PDF с помощью ScraperWiki. Текущий код дает мне ошибку с именем 'data' не определено, но я получаю ошибку на elif int(el.attrib['left']) < 647: data['Neighborhood'] = el.text Если я прокомментирую эту строку, я получу ту ж…

python python-3.x pdf scraperwiki

31 мар '14 в 05:31

1 ответ

Как scraperwiki ограничивает время выполнения?

Как Scraperwiki решает остановить запланированный запуск? Это основано на фактическом времени выполнения или времени процессора? Или, может быть, что-то еще. Я очищаю сайт, для которого Mechanize требуется 30 секунд для загрузки каждой страницы, но …

scraperwiki

20 май '11 в 07:30

5 ответов

Как питонный способ ловить ошибки и продолжать идти в этом цикле?

У меня есть две функции, которые прекрасно работают, но, кажется, ломаются, когда я запускаю их вместе. def scrape_all_pages(alphabet): pages = get_all_urls(alphabet) for page in pages: scrape_table(page) Я пытаюсь систематически очищать некоторые р…

python error-handling scraperwiki

25 ноя '12 в 19:34

2 ответа

Scraperwiki scrape query: использование lxml для извлечения ссылок

Я подозреваю, что это тривиальный запрос, но надеюсь, что кто-то может помочь мне с запросом, который я получил, используя lxml в скребке, который я пытаюсь построить. https://scraperwiki.com/scrapers/thisisscraper/ Я работаю построчно через урок 3 …

python-2.7 lxml scraper scraperwiki

09 июл '12 в 17:59

1 ответ

Twitter Scraper дает ошибку 420

Я получаю следующую ошибку, когда использую следующий код для очистки твиттера для твитов: import scraperwiki import simplejson import urllib2 # Change QUERY to your search term of choice. # Examples: 'newsnight', 'from:bbcnewsnight', 'to:bbcnewsnig…

python twitter scraperwiki

25 апр '13 в 08:07

1 ответ

Как вернуть "N/A" с пустыми значениями в Python и ScraperWiki

Привет: Я новичок в Scraperwiki и Python и пытаюсь выяснить, как вернуть "NA" или что-то подобное, когда на очищенной веб-странице нет элемента, отвечающего моим спецификациям cssselect. В приведенном ниже коде я очищаю набор веб-страниц с двойным в…

python scraperwiki

09 июл '13 в 14:52

2 ответа

Scraperwiki + lxml. Как получить атрибут href потомка элемента с классом?

На ссылке, которая содержит "альфа" в URL, есть много ссылок (hrefs), которые я хотел бы собрать с 20 различных страниц и вставить в конец общего URL (вторая последняя строка). Href находятся в таблице, класс которой является mys-эластичным mys-left…

python web-scraping lxml scraperwiki

02 янв '13 в 09:30

2 ответа

Цикл Foreach умирает после одной итерации

Я экспериментировал со ScraperWiki, и вчера я мог получить список всех liс в DOM. Однако сейчас я выполняю только одну итерацию. Это мой код $html = 'www.blah...' $dom = new simple_html_dom(); $dom->load($html); print_r('Starting parse'); $events…

php for-loop scraper scraperwiki

06 мар '12 в 08:48

1 ответ

Отладка скребка ScraperWiki (выдает ложное целое число)

Вот скребок, который я создал с помощью Python на ScraperWiki: import lxml.html import re import scraperwiki pattern = re.compile(r'\s') html = scraperwiki.scrape("http://www.shanghairanking.com/ARWU2012.html") root = lxml.html.fromstring(html) for …

python screen-scraping scraperwiki

06 май '13 в 10:44

1 ответ

Django Dynamic Scraper Project не работает на Windows, даже если он работает на Linux

Я пытаюсь сделать проект в динамическом Django Scraper. Я проверил его на Linux, и он работает правильно. Когда я пытаюсь запустить команду: Syndb я получаю эту ошибку /********************************************************************************…

python django web-scraping scraper scraperwiki

28 июн '13 в 11:53

1 ответ

Как добавить эти данные в базу данных в scraperwiki

import scraperwiki import urllib2, lxml.etree url = 'http://eci.nic.in/eci_main/statisticalreports/SE_1998/StatisticalReport-DEL98.pdf' pdfdata = urllib2.urlopen(url).read() xmldata = scraperwiki.pdftoxml(pdfdata) root = lxml.etree.fromstring(xmldat…

python pdf screen-scraping scraperwiki

07 май '14 в 08:51

0 ответов

Wget без расширения

Я загружаю данные с CDC. Я хочу скачать все.txt файлы из данного каталога. Этот код работал на 2017 год, потому что все ссылки для скачивания заканчивались на.txt. В 2016 году все ссылки загружаются в.txt (если вы нажмете вручную), но в адресе ссылк…

curl wget scraperwiki

21 июл '18 в 00:16

3 ответа

PHP переменные в функции скребка

Я использую ScraperWiki для создания простого скребка для экрана, получающего ссылки из интернет-магазина. В магазине несколько страниц, поэтому я хочу получить все ссылки с первой страницы, найти кнопку "Далее" в пейджере, перейти по этому URL, най…

php web-scraping scraperwiki

21 фев '13 в 23:27

1 ответ

Использование scraperwiki для pdf-файла на диске

Я пытаюсь получить некоторые данные из документа PDF, используя Scraperwiki для Pyhon. Это прекрасно работает, если я загружаю файл с помощью urllib2 примерно так: pdfdata = urllib2.urlopen(url).read() xmldata = scraperwiki.pdftoxml(pdfdata) root = …

python-2.7 pdf scraperwiki

26 май '15 в 16:43

1 ответ

ScraperWiki/Python: фильтрация записей, когда свойство имеет значение false

Я использую следующий код в ScraperWiki для поиска в Твиттере определенного хэштега.Он отлично работает и выбирает любой почтовый индекс, указанный в твите (или возвращает false, если он недоступен). Это достигается с помощью линии data['location'] …

python twitter scraperwiki

03 май '12 в 19:07

2 ответа

Зачем scraperwiki опускать строки из очищенного HTML?

У меня действительно простой скрипт на python в scraperwiki: import scraperwiki import lxml.html html = scraperwiki.scrape("http://www.westphillytools.org/toolsListing.php") print html Я еще ничего не написал, чтобы разобрать это... пока я просто хо…

python html lxml scraperwiki

07 мар '12 в 14:25