Описание тега webharvest

Описание тега Вопросы с тегом

Web-Harvest - это инструмент извлечения веб-данных с открытым исходным кодом, написанный на Java.

1 ответ

Как получить большие картинки в картинке Google

Я хочу собирать фотографии из поиска картинок Google. Однако меня постоянно уведомляют с ошибкой. Например, URL https://www.google.com/search?q=banana&amp;hl=en&gws_rd=ssl&tbm=isch нормально в моем браузере, но в веб-сборке он сообщает, …

19 сен '14 в 03:25

1 ответ

WebHarvest - утилизация данных с использованием аутентификации

Я использую инструмент WebHarvest для удаления веб-данных с нескольких веб-сайтов. Я просмотрел примеры, но не смог найти способ аутентификации на веб-сайтах, а затем удалить данные из них. Может ли кто-нибудь привести пример конфигурации, чтобы доб…

webharvest

14 апр '14 в 07:47

0 ответов

Ошибка XSLT при получении переменной

Я пытаюсь назначить переменные в файл xsl и использовать их позже в этом файле. Вот как я их назначаю: <xsl:choose> <xsl:when test="matches(normalize-space(tokenize((//span[@class='timark' and matches(.,'Наименование и адрес')]/following-si…

variables xslt webharvest

16 дек '16 в 12:39

2 ответа

Отключение проверки XML в WebHarvest

У меня уже есть мобильное приложение в магазине приложений Apple. Это клиентское приложение SPI использует Rest API на стороне сервера для получения информации в реальном времени о прибытии автобусов на определенной остановке. Приложение работало ка…

xsd xml-parsing webharvest

21 авг '14 в 10:43

1 ответ

Использование правильного веб-скребка

Мне нужно сделать веб-скребок, который использует входной адрес от клиента, а затем извлекает данные с этого адреса с определенного сайта. Я скачал Webharvest, это правильная вещь для начала, чтобы узнать, как написать программу для этого? Кроме тог…

web-scraping webharvest

23 июл '12 в 15:37

1 ответ

Что не так с моей конфигурацией аутентификации веб-сбора?

Недавно я начал использовать Web-Harvest в качестве инструмента для очистки веб-страниц. В настоящее время я работаю в начале проекта, где я хочу аутентифицироваться / войти на веб-сайт. Прежде чем начать, я хочу пояснить, что [URL] в коде заменяет …

xml web-scraping webharvest webobjects

07 апр '12 в 02:03

1 ответ

В чем разница между exitExecution() и stopExecution() в классе Webharvest Scraper

Я хочу знать, в чем разница между scraper.exitExecution() and scraper.stopExecution() and scraper.finishExecutingProcessor() Я попытался заглянуть в документ Java, я не мог найти там ничего. Кажется, что нет надлежащей документации для этого. Пожалу…

java web-scraping screen-scraping scraper webharvest

17 сен '14 в 10:09

1 ответ

Rvest возвращает нулевой список

Я хочу скачать все ссылки / названия статей из Интернета, используя rvest. Я использовал следующий скрипт, но это не список ноль. Какие-либо предложения? библиотека (rvest) 1. Загрузите HTML и превратите его в XML-файл с помощью read_html() Документ…

rvest webharvest

28 сен '18 в 01:12

1 ответ

Как убрать часть текста, полученного из веб-урожая

Я новичок в webharvest и использую его для получения данных статьи с веб-сайта, используя следующее утверждение: let $text := data($doc//div[@id="articleBody"]) и это данные, которые я получаю из приведенного выше заявления: The Refine Spa (Furman's…

javascript java web-scraping screen-scraping webharvest

12 сен '13 в 07:14

2 ответа

Можно ли использовать строковую переменную в качестве тега в xquery

Могу ли я использовать что-то вроде следующего в xquery? В основном я хочу использовать строковую переменную в качестве тега. Я использую веб-урожай для извлечения данных. Любая помощь или указатели приветствуются. declare variable $doc as node() ex…

xquery webharvest

12 ноя '13 в 08:50

0 ответов

Соскоб в сети с помощью rvest - логин не работает - flightradar24.com

Я пытаюсь собрать данные с www.flightradar24.com, используя rvest. У меня есть подписка, поэтому я хочу войти и получить доступ к дополнительным данным. Это код, который я использую для входа (я использую свой адрес электронной почты и пароль вместо…

r web-scraping web-crawler rvest webharvest

26 июн '18 в 15:37

1 ответ

Ограничивающий список, возвращаемый xpath

Я пытаюсь использовать xpath в WebHarvest и могу получить большой список данных, однако мне нужны только первые 5 возвращенных строк. <var-def name="googleProducts"> <html-to-xml> <http url="http://google.com/shopping?q=fila skele-toe…

regex xml xpath webharvest

29 апр '13 в 17:58

1 ответ

Очистка содержимого веб-страницы с помощью веб-сбора

Я хочу соскрести определенное содержимое с веб-страниц, для этого я использую веб-сбор. Он работает хорошо для других сайтов, когда я пытался очистить содержимое, но не очищает содержимое для этого URL. Мой код Java здесь: import org.webharvest.defi…

java html web-scraping webharvest

12 июн '12 в 10:59

2 ответа

Использование регулярных выражений в веб-урожай XML

Я использую веб-сбор, чтобы удалить какой-либо сайт электронной коммерции. Я перебираю страницу поиска и получаю информацию о каждом продукте в выходном XML-файле. Но теперь я хочу использовать регулярное выражение в теге anchor (a) при очистке и по…

java regex xml webharvest

07 янв '13 в 08:25

1 ответ

Использование веб-урожая на Android

Я создаю мобильное приложение, которое использует API веб-сбора урожая для извлечения данных с веб-сайта и сохранения их в файле. Затем приложение будет использовать данные, чтобы манипулировать ими и показывать их. Моя проблема заключается в том, ч…

android webharvest

27 май '12 в 02:15

1 ответ

WebHarvest XML плохо сформирован

Я использую WebHarvest, чтобы попытаться получить данные от Woot.com, и я получаю несколько разных ошибок. Я могу получить веб-сайт с первым процессом, но когда я пытаюсь проверить xpath внутри окна переменной, я получаю ошибку org.xml.sax.SAXParseE…

xml xpath webharvest non-well-formed

29 апр '13 в 04:04

1 ответ

Как webscrape доля рассчитывает в R

Я пытаюсь загрузить подсчет общего ресурса из левого плагина SumoMe этого веб-сайта http://www.r-bloggers.com/erum-2016-first-european-conference-for-the-programming-language-r/ Я пытаюсь использовать код R на основе rvest пакет > library(rvest) …

r web-scraping rvest webharvest

08 июл '16 в 12:44

1 ответ

WebHarvest не может найти заголовки ответа

Я работаю с WebHarvest для получения данных с сайта, который требует входа в систему. Это настроено так: Страница 1 = Страница входа Страница 2 = страница подтверждения входа Страница 3 = Страница статистики На странице 2 установлено печенье. Контро…

webharvest

23 окт '12 в 18:53

1 ответ

Извлечение данных из HTML / XML

Я использую Webharvest для получения данных с веб-сайтов. Он преобразует html-страницы в xml-документы, прежде чем получить для меня нужные данные на основе предоставленного xPath. Сейчас я работаю над такой страницей: pastebin Где я показал блоки, …

html xml xpath webharvest

23 июл '12 в 11:24

1 ответ

Получение заголовков ответов с помощью Java, проблема с кодировкой

Я использую Webharvest, чтобы загрузить файл с веб-сайта и взять его оригинальное имя. Java-код, с которым я работаю: import org.apache.commons.httpclient.Header; import org.apache.commons.httpclient.HttpClient; import org.apache.commons.httpclient.…

java http encoding response webharvest

16 янв '17 в 15:51