Wget без HTML-тегов
Есть ли способ получить тело HTML-страницы, без HTML-тегов?
curl и wget возвращают ответ, но содержат HTML-теги. Мы можем удалить теги с помощью sed и awk, но я ищу существующий инструмент, который мог бы сделать это без sed и awk.
Lynx является опцией, но она не поставляется предварительно установленной.
Спасибо!!
2 ответа
Решение
Почему отвращение к установке соответствующего инструмента?
В качестве альтернативы рыси, попробуйте w3m, например
w3m -dump http://google.com
Преобразование HTML в обычный текст в PHP для электронной почты перечисляет несколько инструментов, а также Как я могу конвертировать HTML в текст в C#?, Однако если lynx -dump
делает то, что вы хотите, что может быть лучшим инструментом для установки.