Описание тега scraperwiki
ScraperWiki - это онлайн-инструмент для очистки экрана.
0
ответов
ASPX запрашивает эмуляцию входа в браузер
Я пытаюсь сделать пост на веб-странице aspx. Я успешно выполнил вход в систему и безуспешно пытаюсь получить содержимое страницы. После входа в систему страница переходит к redirect tmp.aspx, тогда он показывает вам главную страницу. Мой код в насто…
01 ноя '12 в 00:44
1
ответ
Данные Proxy / Fetch из других стран
Некоторые веб-сайты требуют, чтобы у нас был определенный IP-адрес для отображения определенной информации, например. реклама для страны X. Я хотел бы знать, возможно ли использовать прокси (предпочтительно ruby one) с моим сценарием ruby @scrap…
16 фев '13 в 14:39
2
ответа
Почему мой канал KML больше не работает с Картами Google?
Я действительно смущен. У меня есть канал KML по адресу https://views.scraperwiki.com/run/hackney_council_planning_kml_output/? ... Который прекрасно работал с Google Maps до нескольких недель назад: http://maps.google.com/maps?q=https://views.scrap…
19 апр '12 в 22:53
1
ответ
Почему этот ScraperWiki для сайта ASPX возвращает только одну и ту же страницу результатов поиска?
Я пытаюсь очистить ASP-сайт с помощью инструментов ScraperWiki. Я хочу получить список BBS в конкретном коде области с веб-сайта BBSmates.com. Сайт отображает 20 результатов поиска BBS за раз, поэтому мне нужно будет заполнить форму, чтобы перейти с…
29 окт '12 в 01:45
1
ответ
Очистка PDF с помощью ScraperWiki и получение ошибки "Не определено"
Я пытаюсь очистить этот PDF с помощью ScraperWiki. Текущий код дает мне ошибку с именем 'data' не определено, но я получаю ошибку на elif int(el.attrib['left']) < 647: data['Neighborhood'] = el.text Если я прокомментирую эту строку, я получу ту ж…
31 мар '14 в 05:31
1
ответ
Как scraperwiki ограничивает время выполнения?
Как Scraperwiki решает остановить запланированный запуск? Это основано на фактическом времени выполнения или времени процессора? Или, может быть, что-то еще. Я очищаю сайт, для которого Mechanize требуется 30 секунд для загрузки каждой страницы, но …
20 май '11 в 07:30
5
ответов
Как питонный способ ловить ошибки и продолжать идти в этом цикле?
У меня есть две функции, которые прекрасно работают, но, кажется, ломаются, когда я запускаю их вместе. def scrape_all_pages(alphabet): pages = get_all_urls(alphabet) for page in pages: scrape_table(page) Я пытаюсь систематически очищать некоторые р…
25 ноя '12 в 19:34
2
ответа
Scraperwiki scrape query: использование lxml для извлечения ссылок
Я подозреваю, что это тривиальный запрос, но надеюсь, что кто-то может помочь мне с запросом, который я получил, используя lxml в скребке, который я пытаюсь построить. https://scraperwiki.com/scrapers/thisisscraper/ Я работаю построчно через урок 3 …
09 июл '12 в 17:59
1
ответ
Twitter Scraper дает ошибку 420
Я получаю следующую ошибку, когда использую следующий код для очистки твиттера для твитов: import scraperwiki import simplejson import urllib2 # Change QUERY to your search term of choice. # Examples: 'newsnight', 'from:bbcnewsnight', 'to:bbcnewsnig…
25 апр '13 в 08:07
1
ответ
Как вернуть "N/A" с пустыми значениями в Python и ScraperWiki
Привет: Я новичок в Scraperwiki и Python и пытаюсь выяснить, как вернуть "NA" или что-то подобное, когда на очищенной веб-странице нет элемента, отвечающего моим спецификациям cssselect. В приведенном ниже коде я очищаю набор веб-страниц с двойным в…
09 июл '13 в 14:52
2
ответа
Scraperwiki + lxml. Как получить атрибут href потомка элемента с классом?
На ссылке, которая содержит "альфа" в URL, есть много ссылок (hrefs), которые я хотел бы собрать с 20 различных страниц и вставить в конец общего URL (вторая последняя строка). Href находятся в таблице, класс которой является mys-эластичным mys-left…
02 янв '13 в 09:30
2
ответа
Цикл Foreach умирает после одной итерации
Я экспериментировал со ScraperWiki, и вчера я мог получить список всех liс в DOM. Однако сейчас я выполняю только одну итерацию. Это мой код $html = 'www.blah...' $dom = new simple_html_dom(); $dom->load($html); print_r('Starting parse'); $events…
06 мар '12 в 08:48
1
ответ
Отладка скребка ScraperWiki (выдает ложное целое число)
Вот скребок, который я создал с помощью Python на ScraperWiki: import lxml.html import re import scraperwiki pattern = re.compile(r'\s') html = scraperwiki.scrape("http://www.shanghairanking.com/ARWU2012.html") root = lxml.html.fromstring(html) for …
06 май '13 в 10:44
1
ответ
Django Dynamic Scraper Project не работает на Windows, даже если он работает на Linux
Я пытаюсь сделать проект в динамическом Django Scraper. Я проверил его на Linux, и он работает правильно. Когда я пытаюсь запустить команду: Syndb я получаю эту ошибку /********************************************************************************…
28 июн '13 в 11:53
1
ответ
Как добавить эти данные в базу данных в scraperwiki
import scraperwiki import urllib2, lxml.etree url = 'http://eci.nic.in/eci_main/statisticalreports/SE_1998/StatisticalReport-DEL98.pdf' pdfdata = urllib2.urlopen(url).read() xmldata = scraperwiki.pdftoxml(pdfdata) root = lxml.etree.fromstring(xmldat…
07 май '14 в 08:51
0
ответов
Wget без расширения
Я загружаю данные с CDC. Я хочу скачать все.txt файлы из данного каталога. Этот код работал на 2017 год, потому что все ссылки для скачивания заканчивались на.txt. В 2016 году все ссылки загружаются в.txt (если вы нажмете вручную), но в адресе ссылк…
21 июл '18 в 00:16
3
ответа
PHP переменные в функции скребка
Я использую ScraperWiki для создания простого скребка для экрана, получающего ссылки из интернет-магазина. В магазине несколько страниц, поэтому я хочу получить все ссылки с первой страницы, найти кнопку "Далее" в пейджере, перейти по этому URL, най…
21 фев '13 в 23:27
1
ответ
Использование scraperwiki для pdf-файла на диске
Я пытаюсь получить некоторые данные из документа PDF, используя Scraperwiki для Pyhon. Это прекрасно работает, если я загружаю файл с помощью urllib2 примерно так: pdfdata = urllib2.urlopen(url).read() xmldata = scraperwiki.pdftoxml(pdfdata) root = …
26 май '15 в 16:43
1
ответ
ScraperWiki/Python: фильтрация записей, когда свойство имеет значение false
Я использую следующий код в ScraperWiki для поиска в Твиттере определенного хэштега.Он отлично работает и выбирает любой почтовый индекс, указанный в твите (или возвращает false, если он недоступен). Это достигается с помощью линии data['location'] …
03 май '12 в 19:07
2
ответа
Зачем scraperwiki опускать строки из очищенного HTML?
У меня действительно простой скрипт на python в scraperwiki: import scraperwiki import lxml.html html = scraperwiki.scrape("http://www.westphillytools.org/toolsListing.php") print html Я еще ничего не написал, чтобы разобрать это... пока я просто хо…
07 мар '12 в 14:25