Разбор HTML5 с неверным тегом xmllint
Я пытаюсь проанализировать html5 с xmllint, и он генерирует ошибки на определенных тегах. Чтобы убедиться, что он действителен, я сначала прокрутил вывод через tidy, но он выдал те же ошибки. Я только хочу извлечь текст. Есть ли способ прочитать эти недействительные теги?
команда:
echo $s | tidy -o | xmllint --html --xpath 'the xpath to be parsed'
вывод ошибки:
-:178: HTML parser error : Tag svg invalid "21">
версия xmllint:
xmllint: using libxml version 20904