Описание тега webharvest
Web-Harvest - это инструмент извлечения веб-данных с открытым исходным кодом, написанный на Java.
1
ответ
Как получить большие картинки в картинке Google
Я хочу собирать фотографии из поиска картинок Google. Однако меня постоянно уведомляют с ошибкой. Например, URL https://www.google.com/search?q=banana&hl=en&gws_rd=ssl&tbm=isch нормально в моем браузере, но в веб-сборке он сообщает, …
19 сен '14 в 03:25
1
ответ
WebHarvest - утилизация данных с использованием аутентификации
Я использую инструмент WebHarvest для удаления веб-данных с нескольких веб-сайтов. Я просмотрел примеры, но не смог найти способ аутентификации на веб-сайтах, а затем удалить данные из них. Может ли кто-нибудь привести пример конфигурации, чтобы доб…
14 апр '14 в 07:47
0
ответов
Ошибка XSLT при получении переменной
Я пытаюсь назначить переменные в файл xsl и использовать их позже в этом файле. Вот как я их назначаю: <xsl:choose> <xsl:when test="matches(normalize-space(tokenize((//span[@class='timark' and matches(.,'Наименование и адрес')]/following-si…
16 дек '16 в 12:39
2
ответа
Отключение проверки XML в WebHarvest
У меня уже есть мобильное приложение в магазине приложений Apple. Это клиентское приложение SPI использует Rest API на стороне сервера для получения информации в реальном времени о прибытии автобусов на определенной остановке. Приложение работало ка…
21 авг '14 в 10:43
1
ответ
Использование правильного веб-скребка
Мне нужно сделать веб-скребок, который использует входной адрес от клиента, а затем извлекает данные с этого адреса с определенного сайта. Я скачал Webharvest, это правильная вещь для начала, чтобы узнать, как написать программу для этого? Кроме тог…
23 июл '12 в 15:37
1
ответ
Что не так с моей конфигурацией аутентификации веб-сбора?
Недавно я начал использовать Web-Harvest в качестве инструмента для очистки веб-страниц. В настоящее время я работаю в начале проекта, где я хочу аутентифицироваться / войти на веб-сайт. Прежде чем начать, я хочу пояснить, что [URL] в коде заменяет …
07 апр '12 в 02:03
1
ответ
В чем разница между exitExecution() и stopExecution() в классе Webharvest Scraper
Я хочу знать, в чем разница между scraper.exitExecution() and scraper.stopExecution() and scraper.finishExecutingProcessor() Я попытался заглянуть в документ Java, я не мог найти там ничего. Кажется, что нет надлежащей документации для этого. Пожалу…
17 сен '14 в 10:09
1
ответ
Rvest возвращает нулевой список
Я хочу скачать все ссылки / названия статей из Интернета, используя rvest. Я использовал следующий скрипт, но это не список ноль. Какие-либо предложения? библиотека (rvest) 1. Загрузите HTML и превратите его в XML-файл с помощью read_html() Документ…
28 сен '18 в 01:12
1
ответ
Как убрать часть текста, полученного из веб-урожая
Я новичок в webharvest и использую его для получения данных статьи с веб-сайта, используя следующее утверждение: let $text := data($doc//div[@id="articleBody"]) и это данные, которые я получаю из приведенного выше заявления: The Refine Spa (Furman's…
12 сен '13 в 07:14
2
ответа
Можно ли использовать строковую переменную в качестве тега в xquery
Могу ли я использовать что-то вроде следующего в xquery? В основном я хочу использовать строковую переменную в качестве тега. Я использую веб-урожай для извлечения данных. Любая помощь или указатели приветствуются. declare variable $doc as node() ex…
12 ноя '13 в 08:50
0
ответов
Соскоб в сети с помощью rvest - логин не работает - flightradar24.com
Я пытаюсь собрать данные с www.flightradar24.com, используя rvest. У меня есть подписка, поэтому я хочу войти и получить доступ к дополнительным данным. Это код, который я использую для входа (я использую свой адрес электронной почты и пароль вместо…
26 июн '18 в 15:37
1
ответ
Ограничивающий список, возвращаемый xpath
Я пытаюсь использовать xpath в WebHarvest и могу получить большой список данных, однако мне нужны только первые 5 возвращенных строк. <var-def name="googleProducts"> <html-to-xml> <http url="http://google.com/shopping?q=fila skele-toe…
29 апр '13 в 17:58
1
ответ
Очистка содержимого веб-страницы с помощью веб-сбора
Я хочу соскрести определенное содержимое с веб-страниц, для этого я использую веб-сбор. Он работает хорошо для других сайтов, когда я пытался очистить содержимое, но не очищает содержимое для этого URL. Мой код Java здесь: import org.webharvest.defi…
12 июн '12 в 10:59
2
ответа
Использование регулярных выражений в веб-урожай XML
Я использую веб-сбор, чтобы удалить какой-либо сайт электронной коммерции. Я перебираю страницу поиска и получаю информацию о каждом продукте в выходном XML-файле. Но теперь я хочу использовать регулярное выражение в теге anchor (a) при очистке и по…
07 янв '13 в 08:25
1
ответ
Использование веб-урожая на Android
Я создаю мобильное приложение, которое использует API веб-сбора урожая для извлечения данных с веб-сайта и сохранения их в файле. Затем приложение будет использовать данные, чтобы манипулировать ими и показывать их. Моя проблема заключается в том, ч…
27 май '12 в 02:15
1
ответ
WebHarvest XML плохо сформирован
Я использую WebHarvest, чтобы попытаться получить данные от Woot.com, и я получаю несколько разных ошибок. Я могу получить веб-сайт с первым процессом, но когда я пытаюсь проверить xpath внутри окна переменной, я получаю ошибку org.xml.sax.SAXParseE…
29 апр '13 в 04:04
1
ответ
Как webscrape доля рассчитывает в R
Я пытаюсь загрузить подсчет общего ресурса из левого плагина SumoMe этого веб-сайта http://www.r-bloggers.com/erum-2016-first-european-conference-for-the-programming-language-r/ Я пытаюсь использовать код R на основе rvest пакет > library(rvest) …
08 июл '16 в 12:44
1
ответ
WebHarvest не может найти заголовки ответа
Я работаю с WebHarvest для получения данных с сайта, который требует входа в систему. Это настроено так: Страница 1 = Страница входа Страница 2 = страница подтверждения входа Страница 3 = Страница статистики На странице 2 установлено печенье. Контро…
23 окт '12 в 18:53
1
ответ
Извлечение данных из HTML / XML
Я использую Webharvest для получения данных с веб-сайтов. Он преобразует html-страницы в xml-документы, прежде чем получить для меня нужные данные на основе предоставленного xPath. Сейчас я работаю над такой страницей: pastebin Где я показал блоки, …
23 июл '12 в 11:24
1
ответ
Получение заголовков ответов с помощью Java, проблема с кодировкой
Я использую Webharvest, чтобы загрузить файл с веб-сайта и взять его оригинальное имя. Java-код, с которым я работаю: import org.apache.commons.httpclient.Header; import org.apache.commons.httpclient.HttpClient; import org.apache.commons.httpclient.…
16 янв '17 в 15:51