Wget без HTML-тегов

Есть ли способ получить тело HTML-страницы, без HTML-тегов?

curl и wget возвращают ответ, но содержат HTML-теги. Мы можем удалить теги с помощью sed и awk, но я ищу существующий инструмент, который мог бы сделать это без sed и awk.

Lynx является опцией, но она не поставляется предварительно установленной.

Спасибо!!

2 ответа

Решение

Почему отвращение к установке соответствующего инструмента?

В качестве альтернативы рыси, попробуйте w3m, например

w3m -dump http://google.com

Преобразование HTML в обычный текст в PHP для электронной почты перечисляет несколько инструментов, а также Как я могу конвертировать HTML в текст в C#?, Однако если lynx -dump делает то, что вы хотите, что может быть лучшим инструментом для установки.

Другие вопросы по тегам