JTidy is a Java port of HTML Tidy, a HTML syntax checker and pretty printer. JTidy can be used as a tool for cleaning up malformed and faulty HTML. In addition, JTidy provides a DOM interface to the document that is being processed, which effectively makes you able to use JTidy as a DOM parser for real-world HTML. JTidy is maintained by a group of volunteers.
2 ответа

Как получить базовый URL из данного URL с помощью Java

Я пытаюсь получить базовый URL с помощью Java. Я использовал анализатор jtidy в своем коде для получения заголовка. Я правильно получаю заголовок, используя jtidy, но я не получаю базовый URL-адрес по указанному URL. У меня есть некоторые URL в каче…
16 май '11 в 05:49
2 ответа

Как открыть конкретную ссылку при нажатии на изображение в Java?

Я использую Jtidy Parser для получения изображения с веб-страницы в Java. URL url = new URL("www.yahoo.com"); HttpURLConnection conn = (HttpURLConnection) url.openConnection(); InputStream in = conn.getInputStream(); Document doc = new Tidy().parseD…
03 июн '11 в 06:23
1 ответ

Как проверить HTML с помощью JTidy?

Я хочу проверить мой HTML с помощью JTidy . я хочу получить ответ "истина" или "ложь", если он действителен или нет соответственно. В настоящее время я использую этот код. String htmlData = "<html><head></head><body><div&g…
28 окт '14 в 12:27
1 ответ

Jtidy - Как сохранить пространство между встроенными элементами

Мой источник HTML, как это <p><strong><span>Hello</span></strong> <strong><span>World</span></strong></p> После конвертации (без пробела) вывод получился: - HelloWorld
19 май '15 в 07:27
1 ответ

ClassNotFoundException JTidy

Я использую myeclipse для запуска моего сервлета. В функции doPost есть одно предложение Tidy tidy = new Tidy();Однако, когда я запускаю свой сервлет, я получаю сообщение об ошибке, подобное этому: java.lang.ClassNotFoundException: org.w3c.tidy.Tidy…
13 мар '14 в 22:29
1 ответ

Как удалить <и> в XML, который является частью сообщения XML

У меня есть XML, который выглядит следующим образом: &lt;StartTag&gt; &lt;MyValueTag&gt;And the value itself contains a &lt; bracket that makes the XML invalid&lt;/MyValueTag&gt; &lt;/StartTag&gt; XML содержит символ "<", который делает XML недейств…
09 сен '14 в 17:00
2 ответа

Получение исключения при оценке выражения XPath в Java

Я пытаюсь научиться использовать выражения Xpath с Java. Я использую Jtidy для преобразования HTML-страницы в XHTML, чтобы я мог легко разобрать ее с помощью выражений XPath. У меня есть следующий код: DocumentBuilderFactory factory = DocumentBuilde…
04 ноя '18 в 16:33
1 ответ

JTidy: как обработать конкретный тег

Я обрабатываю плохо отформатированные HTML-страницы с помощью JTidy. Меня интересует только исправление определенного набора тегов, например &lt;img&gt; &lt;table&gt;, Можно ли как-то сказать JTidy сосредоточиться только на этих тегах?
14 май '10 в 18:41
0 ответов

Соскребание экрана Java с помощью JTidy - анализ значений HTML

Итак, что я пытаюсь сделать, это очистить веб-страницу IMDB для данных из веб-серий. Проблема в том, что когда я конвертирую страницу в объект DOM и пытаюсь получить значения, это не так просто, как кажется. Например: я использую getElementsByTagNam…
27 ноя '12 в 20:14
0 ответов

jtidy не может разобрать html - параметры

Поэтому я пытался оценить пару анализаторов HTML и попробовал JTidy. Попытка разобрать этот URL: http://htmlcleaner.sourceforge.net/doc/org/htmlcleaner/TagNode.html Дает эти ошибки: строка 1 столбца 56,258 - Ошибка: отсутствует '>' для конца тега ст…
26 апр '13 в 00:44
2 ответа

Как позволить jtidy не конвертировать китайские иероглифы в html-объекты?

У меня есть HTML для преобразования с помощью jtidy, который содержит некоторые китайские символы: &lt;font&gt;怎么回事&lt;/font&gt; Но результат выглядит так: &lt;font&gt;&amp;aelig;&amp;#128;&amp;#142;&amp;auml;&amp;sup1;&amp;#136;&amp;aring;&amp;#155…
16 янв '12 в 12:33
0 ответов

JTidy HTML в XHTML не обрабатывает содержимое файла

Я пытаюсь проанализировать HTML-файл, используя JTidy, но, похоже, он игнорирует содержимое файла в выходных данных, хотя в выходном журнале показано, как JTidy просматривает содержимое файла. public static void Main(String args[]) throws FileNotFou…
10 ноя '13 в 21:51
0 ответов

Прекратить Jtidy разбор, если элемент найден

Есть ли способ загружать и анализировать только XML-документ, пока не будет найден элемент с использованием XPathExpression? Я использую Java: url = new URL("http://registroapps.uniandes.edu.co/scripts/adm_con_horario1_joomla.php?depto="+params[0]);…
12 июл '14 в 07:50
2 ответа

Разбор ссылок с JTidy

В настоящее время я использую JTidy для анализа HTML-документа и получения коллекции всех тегов привязки в данном HTML-документе. Затем я извлекаю значение атрибута href каждого тега, чтобы создать коллекцию ссылок на странице. К сожалению, эти ссыл…
19 дек '11 в 23:31
4 ответа

Как изменить содержимое HTML-тега в Java?

Как я могу изменить содержимое HTML тега в Java? Например: до: &lt;html&gt; &lt;head&gt; &lt;/head&gt; &lt;body&gt; &lt;div&gt;text&lt;div&gt;**text**&lt;/div&gt;text&lt;/div&gt; &lt;/body&gt; &lt;/html&gt; после: &lt;html&gt; &lt;head&gt; &lt;/head…
19 дек '09 в 21:56
3 ответа

Кто-нибудь может опубликовать учебные ссылки для jtidy для преобразования xhtml в xml

Кто-нибудь может дать пример программы для преобразования xhtml doc в xml с использованием jtidy в java. или иным образом опубликовать учебную ссылку для использования jtidy
14 дек '09 в 13:02
3 ответа

Довольно печатать ("только для отступов") HTML-документы на Java (без JTidy)

Мы генерируем HTML-файлы из универсального шаблонизатора Apache Speed. Сгенерированный HTML выглядит некрасиво и не имеет корректного отступа. В моем случае у меня есть HTML, хранящийся в строке, который я хочу манипулировать таким образом, чтобы он…
1 ответ

Как настроить конфигурацию Tidy, чтобы она не заменяла теги?

File file = new File("xxxxxxx"); String y1 = "&lt;html&gt;&lt;body&gt;&lt;table&gt;&lt;tr&gt;&lt;td&gt;&lt;textarea&gt;Hello &lt;br /&gt; world1&lt;/textarea&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;&lt;/body&gt;&lt;/html&gt;"; FileWriter fw = new Fi…
05 дек '13 в 07:00
1 ответ

JTidy и XHTML 1.1: возможно ли это?

Мне нужно преобразовать HTML в XHTML 1.1. Я делаю это в программе на Java, поэтому я решил использовать JTidy. Но если вы скажете JTidy преобразовать вывод в XHTML, вы получите XHTML 1.0, а не XHTML 1.1. Я нашел несколько сообщений в Google о Tidy и…
13 апр '11 в 17:55
1 ответ

Отображение сообщений об ошибках / предупреждений Jtidy в графическом интерфейсе JTextArea

Я пишу программу, которая использует jtidy для очистки HTML от исходного кода, полученного из URL. Я хочу отображать ошибки и предупреждения в графическом интерфейсе, в JTextArea. Как бы я "перенаправил" предупреждения от печати на стандартный вывод…
08 ноя '12 в 04:22