Извлечение текста из html-файла с помощью bash

Question

Извлечение текста из html-файла с помощью bash

У меня есть скрипт:

cd ../data;
dossier=$(ls crawl);

let "compte = 1";

for file in $dossier
do

lynx --dump --nolist $file >> ../data/txt/$compte'.txt';

let "compte = compte + 1"; 
done

я использую lynx извлечь текст из всех моих HTML-файлов, но проблема в том, что когда я открываю свой текстовый файл, написано, что:

410 GONE

This doesn't exist any more. Try html.com.

Я не знаю почему, потому что когда я нахожусь в терминале и в своей папке для сканирования, я выполняю дамп lynx для каждого файла HTML, и он создает текстовый файл, но когда я хочу использовать его со сценарием, чтобы прочитать весь мой HTML файлы и использование lynx по ним результаты не хорошие.

-1

html bash lynx

Источник

user7294253 01 янв '17 в 12:50

1 ответ

Другие вопросы по тегам html bash lynx

user5671682 01 янв '17 в 12:57 2017-01-01 12:57 · Answer 1 · 2017-01-01 12:57

Вам нужен протокол и (не уверен в этом) путь. Например:

lynx -dump file:///where/my/file/is/file.html

0

Источник

user5671682 01 янв '17 в 12:57