Как Google Reader извлекает новости с веб-страницы?

Мне было интересно, как Google Reader извлекает новости с веб-страницы.

Кто-нибудь из вас знает, как это работает? Или как кто-то может создать подобную систему для извлечения той же информации из HTML веб-страницы.

Очевидно, что он не использует стандарт (и не только читает RSS/ATOM), потому что Google Reader доказывает, что он может читать содержимое страницы независимо от того, как выглядит разметка.

2 ответа

Решение

В настоящее время Google Reader не извлекает контент из необработанных веб-страниц. Раньше имелась функция "отслеживать изменения на произвольных страницах", но она была удалена более года назад.

Получив URL-адрес, который не является фидом, Google Reader извлекает его содержимое. Если содержимое HTML, оно ищет элемент автообнаружения в форме <link rel="alternate" type="application/atom+xml" href="feed.xml">, Если найден, он подписывается на ленту новостей.

Вы уже ответили на свой вопрос, пометив свой вопрос "RSS".

В любом случае, Google Reader, как и все другие RSS/Atom-Readers, читает RSS или канал Atom. Возможно, вы захотите взглянуть на соответствующую статью в Википедии: http://en.wikipedia.org/wiki/RSS

Другие вопросы по тегам