Извлечение текста из html-файла с помощью bash
У меня есть скрипт:
cd ../data;
dossier=$(ls crawl);
let "compte = 1";
for file in $dossier
do
lynx --dump --nolist $file >> ../data/txt/$compte'.txt';
let "compte = compte + 1";
done
я использую lynx
извлечь текст из всех моих HTML-файлов, но проблема в том, что когда я открываю свой текстовый файл, написано, что:
410 GONE
This doesn't exist any more. Try html.com.
Я не знаю почему, потому что когда я нахожусь в терминале и в своей папке для сканирования, я выполняю дамп lynx для каждого файла HTML, и он создает текстовый файл, но когда я хочу использовать его со сценарием, чтобы прочитать весь мой HTML файлы и использование lynx
по ним результаты не хорошие.
1 ответ
Вам нужен протокол и (не уверен в этом) путь. Например:
lynx -dump file:///where/my/file/is/file.html