Сценарий оболочки для извлечения текста с веб-страницы и обрезки

Question

Сценарий оболочки для извлечения текста с веб-страницы и обрезки

Я не знаю, как обрезать текст честно.

Что у меня так далеко:

wget --output-document=- http://www.geupdate.com 2>/dev/null \
| grep last \

Выходы:

<li><b><img src='http://www.geupdate.com/img/arrow-tail.png' align='left'>Time since last update</b>: <br />0 day, 19 hours, 23 min, 36 sec</li><li><b><img src='http://www.geupdate.com/img/ledlightblue.png' align='left'>An Update to occur within:</b> (<a href='http://www.geupdate.com/update-prediction/'><font size='-2'>?</font></a>) <br />0 day, 21 hours, 56 min, 30 sec</li>               </ul>

Что я на самом деле хочу урезать из этого:

0 day, 19 hours, 23 min, 36 sec

Если кто-нибудь может сказать мне, как написать что-то или написать это, если это так просто, это было бы хорошо!

Когда я запускаю это:

wget --output-document=- http://www.geupdate.com 2>/dev/null \
| grep last \
| grep -o '[[:digit:]]* day.* sec'

Я получаю это:

0 day, 19 hours, 43 min, 16 sec</li><li><b><img src='http://www.geupdate.com/img/ledlightblue.png' align='left'>An Update to occur within:</b> (<a href='http://www.geupdate.com/update-prediction/'><font size='-2'>?</font></a>) <br />0 day, 21 hours, 36 min, 50 sec

1

linux shell webpage pull

Источник

user1009123 27 ноя '11 в 02:06

1 ответ

Решение

Другие вопросы по тегам linux shell webpage pull

user978917 27 ноя '11 в 02:10 2011-11-27 02:10 · Accepted Answer · 2011-11-27 02:10

wget --output-document=- http://www.geupdate.com 2>/dev/null \
| grep last \
| grep -o '[[:digit:]]* days*, [[:digit:]]* hours*, [[:digit:]]* min, [[:digit:]]* sec' \
| head -1

3

Источник

user978917 27 ноя '11 в 02:10