Как конвертировать несколько HTML-файлов в текстовые файлы?
Привет всем, у меня есть папка, полная HTML-файлов, которые я хочу преобразовать в текстовые файлы. Я работаю на платформе Ubuntu, и, к сожалению, lynx --dump не устанавливается для меня. Есть ли альтернативный способ конвертировать HTML-файлы в текстовые файлы? Пожалуйста помоги! Заранее спасибо.
1 ответ
Этот вопрос помечен python
поэтому мой первый выбор - html2text Аарона Шварца. Он производит тест в формате уценки.
Решения Python также возможны с BeautifulSoup.
Если хочешь perl
вот простой perl
Скрипт для преобразования HTML в текст:
#!/usr/bin/perl -w
use HTML::Parse;
use HTML::FormatText;
my $file = $ARGV[0];
if (not -r $file) {
die "ERROR: File ($file) is not readable\n";
}
my $html = do { local $/; open(I,$file); <I> };
my $plain = HTML::FormatText->new->format(parse_html($html) );
print $plain;