Как конвертировать несколько HTML-файлов в текстовые файлы?

Привет всем, у меня есть папка, полная HTML-файлов, которые я хочу преобразовать в текстовые файлы. Я работаю на платформе Ubuntu, и, к сожалению, lynx --dump не устанавливается для меня. Есть ли альтернативный способ конвертировать HTML-файлы в текстовые файлы? Пожалуйста помоги! Заранее спасибо.

1 ответ

Этот вопрос помечен python поэтому мой первый выбор - html2text Аарона Шварца. Он производит тест в формате уценки.

Решения Python также возможны с BeautifulSoup.

Если хочешь perlвот простой perl Скрипт для преобразования HTML в текст:

#!/usr/bin/perl -w

use HTML::Parse;
use HTML::FormatText;

my $file = $ARGV[0];
if (not -r $file) {
    die "ERROR: File ($file) is not readable\n";
}

my $html = do { local $/; open(I,$file); <I> };
my $plain = HTML::FormatText->new->format(parse_html($html) );
print $plain;
Другие вопросы по тегам