Сканирование новостных статей

Кто-нибудь знает, есть ли стандарты / API для сканирования новостных статей из большинства крупнейших источников новостей.

Я использую rss для их индексации, но я хотел бы классифицировать их с большим количеством данных, чем просто их заголовки.

3 ответа

Решение

Использование поиска новостей или потокового API:

http://www.daylife.com/

http://spotlight.reuters.com/

https://newsriver.io/

Если вы ищете API для сканирования новостей из нескольких источников, вы можете рассмотреть Newsriver. Это очень новый API для поиска структурированных новостных статей в Интернете.

Newsriver охватывает большое количество онлайн-источников новостей, и он полностью настраивается.

Основное преимущество использования обхода в качестве сервисного API заключается в том, что вам больше не нужно управлять следующими аспектами:

  1. Находите и поддерживайте RSS-каналы и веб-сайты издателей новостей.
  2. Нормализация, вращение и канонизация URL.
  3. Запросы на удушение (чтобы избежать злоупотреблений жалуется).
  4. Статическое сканирование HTML и динамическое сканирование (Ajax).
  5. Извлечение контента, первичного текста, встроенных объектов, таких как изображения, видео, карты, твиты и т. Д.
  6. Извлечение метаданных (например, язык, местоположение, ключевые слова и т. Д.)
  7. Обнаружение дублирующих новостных статей.

Если я правильно прочитал, вы имеете в виду Atom?

Там также спецификации RSS

Другие вопросы по тегам