Как удалить все теги HTML с Tidy

Я искал HTML-парсер и нашел приборку. Дело в том, что теперь, когда я установил его, я не могу найти, как удалить все теги HTML (а также функцию javascript, если это возможно). Пример кода превращает html в XHTML, и у меня начинает складываться ощущение, что я скачал неподходящий пакет, не смог найти документацию / руководства, которые бы это объясняли.

Любые предложения о том, как это можно сделать с помощью приборки?

РЕДАКТИРОВАТЬ: Как я понял, Tidy является HTML-парсер, я пытаюсь добиться только оставить простой тест, то есть: <h3>Test</h3> придет в Test

1 ответ

Tidy в основном используется для очистки HTML-страниц. Вы можете отправить вывод Tidy в libxml ++ для анализа сгенерированного XHTML.

Рабочий пример использования libxml ++ приведен по этой ссылке. Анализ XHTML с использованием libxml ++. Вы можете использовать один из 3 анализаторов для разбора строки и получения только текста без каких-либо тегов.

Другие вопросы по тегам