Извлечение текста из html-файла с помощью bash

У меня есть скрипт:

cd ../data;
dossier=$(ls crawl);

let "compte = 1";

for file in $dossier
do

lynx --dump --nolist $file >> ../data/txt/$compte'.txt';

let "compte = compte + 1"; 
done 

я использую lynx извлечь текст из всех моих HTML-файлов, но проблема в том, что когда я открываю свой текстовый файл, написано, что:

410 GONE

This doesn't exist any more. Try html.com.

Я не знаю почему, потому что когда я нахожусь в терминале и в своей папке для сканирования, я выполняю дамп lynx для каждого файла HTML, и он создает текстовый файл, но когда я хочу использовать его со сценарием, чтобы прочитать весь мой HTML файлы и использование lynx по ним результаты не хорошие.

1 ответ

Вам нужен протокол и (не уверен в этом) путь. Например:

lynx -dump file:///where/my/file/is/file.html
Другие вопросы по тегам