jtidy не может разобрать html - параметры

Поэтому я пытался оценить пару анализаторов HTML и попробовал JTidy. Попытка разобрать этот URL:

http://htmlcleaner.sourceforge.net/doc/org/htmlcleaner/TagNode.html

Дает эти ошибки:

строка 1 столбца 56,258 - Ошибка: отсутствует '>' для конца тега

строка 1 столбца 56,258 - Ошибка: не распознано!

Он говорит, что строка первая, так как он читает ее как одну строку, но это строка, которую JTidy вырывает на экран / терпит неудачу:

      <li>//div[last() >= 4]//./div[position() = last()])[position() > 22]//li[2]//a</li>

Мой код довольно прост:

import org.w3c.dom.Document;
import org.w3c.dom.NodeList;
import org.w3c.tidy.Tidy;

Document document = tidy.parseDOM(new ByteArrayInputStream(this.getHtml().getBytes()), null);
NodeList anchorTags = document.getElementsByTagName("A");

Это просто ошибка в JTidy или я что-то не так делаю? До сих пор я оценил около 6 других, и ни у одного из них не было проблем на этой странице.

0 ответов

Другие вопросы по тегам