Описание тега scraperwiki

ScraperWiki - это онлайн-инструмент для очистки экрана.
0 ответов

ASPX запрашивает эмуляцию входа в браузер

Я пытаюсь сделать пост на веб-странице aspx. Я успешно выполнил вход в систему и безуспешно пытаюсь получить содержимое страницы. После входа в систему страница переходит к redirect tmp.aspx, тогда он показывает вам главную страницу. Мой код в насто…
1 ответ

Данные Proxy / Fetch из других стран

Некоторые веб-сайты требуют, чтобы у нас был определенный IP-адрес для отображения определенной информации, например. реклама для страны X. Я хотел бы знать, возможно ли использовать прокси (предпочтительно ruby ​​one) с моим сценарием ruby ​​@scrap…
16 фев '13 в 14:39
2 ответа

Почему мой канал KML больше не работает с Картами Google?

Я действительно смущен. У меня есть канал KML по адресу https://views.scraperwiki.com/run/hackney_council_planning_kml_output/? ... Который прекрасно работал с Google Maps до нескольких недель назад: http://maps.google.com/maps?q=https://views.scrap…
19 апр '12 в 22:53
1 ответ

Почему этот ScraperWiki для сайта ASPX возвращает только одну и ту же страницу результатов поиска?

Я пытаюсь очистить ASP-сайт с помощью инструментов ScraperWiki. Я хочу получить список BBS в конкретном коде области с веб-сайта BBSmates.com. Сайт отображает 20 результатов поиска BBS за раз, поэтому мне нужно будет заполнить форму, чтобы перейти с…
1 ответ

Очистка PDF с помощью ScraperWiki и получение ошибки "Не определено"

Я пытаюсь очистить этот PDF с помощью ScraperWiki. Текущий код дает мне ошибку с именем 'data' не определено, но я получаю ошибку на elif int(el.attrib['left']) < 647: data['Neighborhood'] = el.text Если я прокомментирую эту строку, я получу ту ж…
31 мар '14 в 05:31
1 ответ

Как scraperwiki ограничивает время выполнения?

Как Scraperwiki решает остановить запланированный запуск? Это основано на фактическом времени выполнения или времени процессора? Или, может быть, что-то еще. Я очищаю сайт, для которого Mechanize требуется 30 секунд для загрузки каждой страницы, но …
20 май '11 в 07:30
5 ответов

Как питонный способ ловить ошибки и продолжать идти в этом цикле?

У меня есть две функции, которые прекрасно работают, но, кажется, ломаются, когда я запускаю их вместе. def scrape_all_pages(alphabet): pages = get_all_urls(alphabet) for page in pages: scrape_table(page) Я пытаюсь систематически очищать некоторые р…
25 ноя '12 в 19:34
2 ответа

Scraperwiki scrape query: использование lxml для извлечения ссылок

Я подозреваю, что это тривиальный запрос, но надеюсь, что кто-то может помочь мне с запросом, который я получил, используя lxml в скребке, который я пытаюсь построить. https://scraperwiki.com/scrapers/thisisscraper/ Я работаю построчно через урок 3 …
09 июл '12 в 17:59
1 ответ

Twitter Scraper дает ошибку 420

Я получаю следующую ошибку, когда использую следующий код для очистки твиттера для твитов: import scraperwiki import simplejson import urllib2 # Change QUERY to your search term of choice. # Examples: 'newsnight', 'from:bbcnewsnight', 'to:bbcnewsnig…
25 апр '13 в 08:07
1 ответ

Как вернуть "N/A" с пустыми значениями в Python и ScraperWiki

Привет: Я новичок в Scraperwiki и Python и пытаюсь выяснить, как вернуть "NA" или что-то подобное, когда на очищенной веб-странице нет элемента, отвечающего моим спецификациям cssselect. В приведенном ниже коде я очищаю набор веб-страниц с двойным в…
09 июл '13 в 14:52
2 ответа

Scraperwiki + lxml. Как получить атрибут href потомка элемента с классом?

На ссылке, которая содержит "альфа" в URL, есть много ссылок (hrefs), которые я хотел бы собрать с 20 различных страниц и вставить в конец общего URL (вторая последняя строка). Href находятся в таблице, класс которой является mys-эластичным mys-left…
02 янв '13 в 09:30
2 ответа

Цикл Foreach умирает после одной итерации

Я экспериментировал со ScraperWiki, и вчера я мог получить список всех liс в DOM. Однако сейчас я выполняю только одну итерацию. Это мой код $html = 'www.blah...' $dom = new simple_html_dom(); $dom->load($html); print_r('Starting parse'); $events…
06 мар '12 в 08:48
1 ответ

Отладка скребка ScraperWiki (выдает ложное целое число)

Вот скребок, который я создал с помощью Python на ScraperWiki: import lxml.html import re import scraperwiki pattern = re.compile(r'\s') html = scraperwiki.scrape("http://www.shanghairanking.com/ARWU2012.html") root = lxml.html.fromstring(html) for …
06 май '13 в 10:44
1 ответ

Django Dynamic Scraper Project не работает на Windows, даже если он работает на Linux

Я пытаюсь сделать проект в динамическом Django Scraper. Я проверил его на Linux, и он работает правильно. Когда я пытаюсь запустить команду: Syndb я получаю эту ошибку /********************************************************************************…
28 июн '13 в 11:53
1 ответ

Как добавить эти данные в базу данных в scraperwiki

import scraperwiki import urllib2, lxml.etree url = 'http://eci.nic.in/eci_main/statisticalreports/SE_1998/StatisticalReport-DEL98.pdf' pdfdata = urllib2.urlopen(url).read() xmldata = scraperwiki.pdftoxml(pdfdata) root = lxml.etree.fromstring(xmldat…
07 май '14 в 08:51
0 ответов

Wget без расширения

Я загружаю данные с CDC. Я хочу скачать все.txt файлы из данного каталога. Этот код работал на 2017 год, потому что все ссылки для скачивания заканчивались на.txt. В 2016 году все ссылки загружаются в.txt (если вы нажмете вручную), но в адресе ссылк…
21 июл '18 в 00:16
3 ответа

PHP переменные в функции скребка

Я использую ScraperWiki для создания простого скребка для экрана, получающего ссылки из интернет-магазина. В магазине несколько страниц, поэтому я хочу получить все ссылки с первой страницы, найти кнопку "Далее" в пейджере, перейти по этому URL, най…
21 фев '13 в 23:27
1 ответ

Использование scraperwiki для pdf-файла на диске

Я пытаюсь получить некоторые данные из документа PDF, используя Scraperwiki для Pyhon. Это прекрасно работает, если я загружаю файл с помощью urllib2 примерно так: pdfdata = urllib2.urlopen(url).read() xmldata = scraperwiki.pdftoxml(pdfdata) root = …
26 май '15 в 16:43
1 ответ

ScraperWiki/Python: фильтрация записей, когда свойство имеет значение false

Я использую следующий код в ScraperWiki для поиска в Твиттере определенного хэштега.Он отлично работает и выбирает любой почтовый индекс, указанный в твите (или возвращает false, если он недоступен). Это достигается с помощью линии data['location'] …
03 май '12 в 19:07
2 ответа

Зачем scraperwiki опускать строки из очищенного HTML?

У меня действительно простой скрипт на python в scraperwiki: import scraperwiki import lxml.html html = scraperwiki.scrape("http://www.westphillytools.org/toolsListing.php") print html Я еще ничего не написал, чтобы разобрать это... пока я просто хо…
07 мар '12 в 14:25