Как узнать последнее имя файла с сайта, используя скрипт оболочки
Я относительно новичок в Shell Scripting и столкнулся со следующей проблемой. Я хочу загрузить последний бесплатный дамп с http://commondatastorage.googleapis.com/freebase-public/ сайта. Я знаю формат имени файла - freebase-rdf-.gz, например, freebase-rdf-2014-01-12-00-00.gz.
Я проверил, и команда "wget" получает файл. Однако моя проблема заключается в том, что мне нужно найти последний дамп данных, а затем запустить команду wget, чтобы загрузить файл с сайта. Я проверил, что команда wget не принимает регулярные выражения.
Кто-нибудь может мне помочь с этой проблемой?
2 ответа
Последняя версия, кажется, находится в файле с именем freebase-rdf-latest.gz
, Чтобы получить его с помощью wget, используйте:
wget http://commondatastorage.googleapis.com/freebase-public/rdf/freebase-rdf-latest.gz
Вы можете использовать функцию временной метки wget:
http://www.gnu.org/software/wget/manual/html_node/Time_002dStamping.html
Сохраните вашу последнюю загрузку и wget заботится о том, чтобы получить новую версию один раз.
Или вы можете получить каталог listig ( http://www.editcorp.com/Personal/Lars_Appel/wget/v1/wget_7.html)
If you specify a directory, Wget will retrieve the directory listing, parse it and convert it to HTML. Try:
wget ftp://prep.ai.mit.edu/pub/gnu/
lynx index.html
Разберите его локально, отсортируйте и возьмите последний результат для вызова wget.