Описание тега jericho-html-parser

Jericho HTML Parser - это java-библиотека, позволяющая анализировать и обрабатывать части документа HTML, включая теги на стороне сервера, при дословном воспроизведении любого нераспознанного или недействительного HTML. Он также предоставляет высокоуровневые функции для работы с HTML-формами.
1 ответ

Как получить текст из <a href> во вложенных элементах HTML, используя Иерихон?

У меня есть HTML-код, как это &lt;div class="itm hasOverlay lastrow"&gt; &lt;a id="3:LE343SPABGLIANID" class="itm-link itm-drk trackingOnClick" title="League Sepatu Casual Geof S/L LO - Hitam/Biru" href="league-sepatu-casual-geof-sl-lo-hitambiru-681…
20 фев '14 в 09:55
2 ответа

Как разобрать текст без вложенных HTML-элементов, используя Jericho?

Используя Иерихон, мне нужно разобрать что-то вроде этого: &lt;html&gt; &lt;div class="title"&gt; Spoon bows &lt;br/&gt; &lt;span&gt; A Matrix scene. &lt;br/&gt; Matrix 1 &lt;/span&gt; &lt;/div&gt; &lt;/html&gt; Я хочу разобрать "Spoon bows", но я п…
20 мар '12 в 21:41
1 ответ

Обновить текст на HTML-странице с помощью парсера

Я всегда получаю ошибку в middlebitparent.replaceWith(nodespan);в следующем коде, который написан в jsoup для навигации по документу HTML и изменения цвета фона слова "В" Elements divs= doc.select("div"); for(Element div : divs) { if (div.hasText())…
1 ответ

Извлечение данных между двумя конкретными текстами, используя Иерихон

Я использую Иерихон для разбора HTML. У меня есть HTML-страница, на которой мне нужно извлечь данные между двумя конкретными текстами. &lt;table width="100%" align="left"&gt; &lt;tr&gt;&lt;td&gt; &lt;b&gt; Item 7. &lt;/b&gt; &lt;/td&gt;&lt;/tr&gt; &…
23 апр '13 в 09:15
1 ответ

Ява разбирать текст из HTML, не включая ссылки

Я пытался библиотеки jericho и jsoup. Но, к сожалению, проанализированный текст содержит ссылки. На самом деле, я пытаюсь токенизировать HTML-текст, чтобы найти ключевые слова, и эти две библиотеки генерируют много шумов, с которыми действительно тр…
19 ноя '13 в 21:05
1 ответ

Как разобрать XML с помощью Jericho HTML Parser

Я новичок в Java и сервлет и в настоящее время пытаюсь проанализировать XML с помощью Jericho XML Parser. Например, я хочу получить ссылки от каждого тега ссылки, но он ничего не показывает, а общее число говорит о 27(можно получить только правильно…
21 ноя '11 в 16:23
2 ответа

Извлечение текста из HTML с использованием Java, включая номер строки исходного кода и код

Вопрос о том, как извлечь текст из HTML с помощью Java, был просмотрен и продублирован миллион раз: извлечение текста из HTML Java Благодаря ответам, найденным в Stackru, мое текущее состояние таково, что я использую JSoup &lt;!-- Jsoup maven depend…
1 ответ

Проверить HTML-тег в Java с помощью Jericho

С использованием jericho apiМогу ли я проверить данный HTML-тег, как &lt;input type="test" .....&gt;? Я не смог найти API в Иерихоне, который бы сделал это. Есть ли способ, где я мог бы сделать это с помощью jericho только? Я не хочу убирать или дез…
1 ответ

Найти Xpath элемента в содержимом HTML-страницы, используя Java

Я начинаю с выражения XPath, У меня ниже URL: http://www.newark.com/white-rodgers/586-902/contactor-spst-no-12vdc-200a-bracket/dp/35M1913?MER=PPSO_N_P_EverywhereElse_None который содержит html pagecontent, используя следующие xpaths, он приводит к т…
2 ответа

Какой HTML-парсер я должен использовать?

Я работаю над продуктом, где мне нужно разобрать HTML-документ. Я искал Иерихон, TagSoup, Jsoup и Crawl4J. Какой синтаксический анализатор я должен использовать для анализа HTML, поскольку мне нужно запустить этот процесс в многопоточной среде с исп…
11 сен '12 в 11:36
1 ответ

Как обновить раздел заголовка HTML новым кодом в JAVA

У меня есть несколько htmls, где я хочу заменить раздел заголовка на мои новые строки кода. (Мой новый код - новый CSS, новый импорт файлов JS и несколько скриптов). Я хочу заменить весь существующий раздел заголовка и заменить новым. Эти изменения …
1 ответ

JBoss wildfly 10 NoClassDefFoundError при переносе из JBoss 4.2

У меня есть весеннее приложение MVC, работающее на JBoss 4.2. Я пытаюсь перенести это веб-приложение в JBoss wildfly 10 (wildfly-10.0.0. Окончательная версия). Когда я пытаюсь развернуть мое приложение, вы увидите эту ошибку: "{\"WFLYCTL0080: Failed…
19 авг '16 в 12:22
3 ответа

Преобразуйте Iterator в цикл for с индексом, чтобы пропустить объекты

Я использую Jericho HTML Parser для разбора искаженного HTML. В частности, я пытаюсь получить все текстовые узлы, обработать текст и затем заменить его. Я хочу пропустить определенные элементы из обработки. Например, я хочу пропустить все элементы и…
27 июн '13 в 14:21
1 ответ

Разбор гиперссылок Java Jericho

Я пытаюсь найти способ получить все гиперссылки на веб-странице - кроме случаев, когда они находятся в теге привязки (). Для этого я использую анализатор Jericho. Мой первоначальный подход состоял в том, чтобы принять разницу между List&lt;Element&g…
18 июл '12 в 19:04
3 ответа

Довольно печатать ("только для отступов") HTML-документы на Java (без JTidy)

Мы генерируем HTML-файлы из универсального шаблонизатора Apache Speed. Сгенерированный HTML выглядит некрасиво и не имеет корректного отступа. В моем случае у меня есть HTML, хранящийся в строке, который я хочу манипулировать таким образом, чтобы он…
1 ответ

Как получить все комментарии пользователей с сайта?

Я хочу, чтобы все комментарии пользователей с этого сайта: http://www.consumercomplaints.in/?search=chevrolet Проблема в том, что комментарии отображаются частично, и чтобы увидеть полный комментарий, я должен нажать на заголовок над ним, и этот про…
1 ответ

Как получить доступ к элементу в HTML-код

1-Какой код я пишу, чтобы получить все элементы "хочу получить доступ" в этом коде, а не другие элементы, такие как " некоторые данные ", и нужны только элементы в классе div bestMFdtl2. 2-и если я хочу, чтобы в этом коде был какой-то конкретный эле…
1 ответ

Хотите получить доступ к значению атрибута

Мне нужна помощь относительно html-парсера. Я хочу получить первый атрибут "href", значение тега "a", пожалуйста, решите мою проблему. Я хочу получить эту ссылку из кода http://myneta.info/gujarat2012/candidate.php?candidate_id=1591, я прикрепляю сн…
01 апр '14 в 07:33
0 ответов

Разбор HTML не возвращает данных, хотя они читаются

У меня возникла следующая проблема. Я написал фрагмент кода Java, который читает HTML-файл с известной структурой (см. Ниже). Я разбил его на элементы и получил их текст, используя анализатор jericho. Затем, как только я распечатаю текст, чтобы убед…
03 апр '12 в 19:32
1 ответ

Java - метод replace() не определен для типа OutputDocument

Эй, я использую Eclipse в проекте Java EE, и это показывает проблему Метод replace(Element, String) не определен для типа OutputDocument Я уже импортировал библиотеку au.id.jericho.lib.html.OutputDocument, я не знаю, что еще делать Это где он исполь…