Сканирование новостных статей
Кто-нибудь знает, есть ли стандарты / API для сканирования новостных статей из большинства крупнейших источников новостей.
Я использую rss для их индексации, но я хотел бы классифицировать их с большим количеством данных, чем просто их заголовки.
3 ответа
Использование поиска новостей или потокового API:
Если вы ищете API для сканирования новостей из нескольких источников, вы можете рассмотреть Newsriver. Это очень новый API для поиска структурированных новостных статей в Интернете.
Newsriver охватывает большое количество онлайн-источников новостей, и он полностью настраивается.
Основное преимущество использования обхода в качестве сервисного API заключается в том, что вам больше не нужно управлять следующими аспектами:
- Находите и поддерживайте RSS-каналы и веб-сайты издателей новостей.
- Нормализация, вращение и канонизация URL.
- Запросы на удушение (чтобы избежать злоупотреблений жалуется).
- Статическое сканирование HTML и динамическое сканирование (Ajax).
- Извлечение контента, первичного текста, встроенных объектов, таких как изображения, видео, карты, твиты и т. Д.
- Извлечение метаданных (например, язык, местоположение, ключевые слова и т. Д.)
- Обнаружение дублирующих новостных статей.
Если я правильно прочитал, вы имеете в виду Atom?
Там также спецификации RSS