jtidy не может разобрать html - параметры
Поэтому я пытался оценить пару анализаторов HTML и попробовал JTidy. Попытка разобрать этот URL:
http://htmlcleaner.sourceforge.net/doc/org/htmlcleaner/TagNode.html
Дает эти ошибки:
строка 1 столбца 56,258 - Ошибка: отсутствует '>' для конца тега
строка 1 столбца 56,258 - Ошибка: не распознано!
Он говорит, что строка первая, так как он читает ее как одну строку, но это строка, которую JTidy вырывает на экран / терпит неудачу:
<li>//div[last() >= 4]//./div[position() = last()])[position() > 22]//li[2]//a</li>
Мой код довольно прост:
import org.w3c.dom.Document;
import org.w3c.dom.NodeList;
import org.w3c.tidy.Tidy;
Document document = tidy.parseDOM(new ByteArrayInputStream(this.getHtml().getBytes()), null);
NodeList anchorTags = document.getElementsByTagName("A");
Это просто ошибка в JTidy или я что-то не так делаю? До сих пор я оценил около 6 других, и ни у одного из них не было проблем на этой странице.