Как Google Reader извлекает новости с веб-страницы?

Question

Как Google Reader извлекает новости с веб-страницы?

Мне было интересно, как Google Reader извлекает новости с веб-страницы.

Кто-нибудь из вас знает, как это работает? Или как кто-то может создать подобную систему для извлечения той же информации из HTML веб-страницы.

Очевидно, что он не использует стандарт (и не только читает RSS/ATOM), потому что Google Reader доказывает, что он может читать содержимое страницы независимо от того, как выглядит разметка.

2

algorithm search rss google-reader

Источник

user452830 20 дек '11 в 23:09

2 ответа

Решение

Вы уже ответили на свой вопрос, пометив свой вопрос "RSS".

В любом случае, Google Reader, как и все другие RSS/Atom-Readers, читает RSS или канал Atom. Возможно, вы захотите взглянуть на соответствующую статью в Википедии: http://en.wikipedia.org/wiki/RSS

-2

Источник

user548951 20 дек '11 в 23:15

Другие вопросы по тегам algorithm search rss google-reader

user343108 26 дек '11 в 22:54 2011-12-26 22:54 · Accepted Answer · 2011-12-26 22:54

В настоящее время Google Reader не извлекает контент из необработанных веб-страниц. Раньше имелась функция "отслеживать изменения на произвольных страницах", но она была удалена более года назад.

Получив URL-адрес, который не является фидом, Google Reader извлекает его содержимое. Если содержимое HTML, оно ищет элемент автообнаружения в форме <link rel="alternate" type="application/atom+xml" href="feed.xml">, Если найден, он подписывается на ленту новостей.