Статистика об усыновлении "Микроформат против HTML+RDFa"

Существуют ли в последнее время достоверные статистические данные об "использовании Интернета" (веб-страницах, использующих тот или иной стандарт) этих стандартов?

Или конкретная статистика о сфере использования vCard (человек и / или организация)?

Только статистика, этот вопрос не о том "какая лучшая идея?" или "как это использовать?" Ищем статистические данные для сравнения принятия микроформатов с (любым видом) RDFa в принятии HTML.

Для статистики "подсчета страниц" можно считать, что микроданные являются разновидностью RDFa-HTML.


ЗАМЕТКИ

Объяснить контекст

RDFa Lite - единственная рекомендация W3C, когда мы говорим о "Микроданные против Микроформат", и у Микроданных есть лучшая карта к RDFa Lite. HTML5 стал Рекомендацией W3C в 2014-10-28, и ни одна из них не была благословлена ​​W3C. Я понимаю, что http://schema.org/ - это лучший способ принять (повторно использовать схемы сообщества) RDFa.

С другой стороны, микроформаты старше и наиболее просты; так что, пожалуй, самый используемый в Сети (!? это?).

О "статистике данных vCard"

Если нам нужна некоторая область для статистики, давайте использовать vCard в качестве области:

  • Микроформат hCard и h-Card являются стандартами для отображения визитных карточек в (любом) HTML и использовались для людей и организаций.

  • Персона и организация schema.org кодируют информацию vCard с помощью (стандартного) RDFa Lite или Microdata.

Другие заметки

В Википедии выражено старое (2012-е) и неподтвержденное утверждение (без источника!): "Микроформаты, такие как hCard, тем не менее, продолжают публиковаться больше, чем схемы и другие в Интернете", а http://webdatacommons.org/ - беспорядок, а не статистический отчет.

(редактировать) теперь ошибка цитирования Википедии исправлена.


(редактировать после комментария @sashoalm) Примечание для тех, кто не согласен с тем, что этот вопрос является действительным.

Этот вопрос является проблемой программного обеспечения, а не "запросом стороннего ресурса"...

ПРОБЛЕМА: чтобы решить, какую библиотеку, структуру, модель данных и т. Д. В проекте нам необходимо использовать инструменты, которые используются сегодня и в ближайшие несколько лет... Для принятия решений по проекту при разработке программного обеспечения нам нужна статистика о тенденциях пользователей, принятии фреймворков и т. д.

PS: здесь, в Stackru, много дискуссий о языковой статистике, то есть о том же "наборе проблем". Пример: 1, 2, 3, 4, 5, 6. Смотрите также вопросы с тегами [usage-statistics],

2 ответа

Решение

Теперь я вижу, есть некоторая статистика (!!), ссылка на Википедию была потеряна... Я исправил. Он не обновлен, взят из "Зимы 2013" (сбор данных ~1,5 или 2 года), но показывает реальность и тенденции.

http://webdatacommons.org/structureddata/index.html

Вот диаграмма в отчете (с доминированием RDFa+HTML!):

Интерпретация:

  • в разделе 5 "Процесс извлечения" говорится, что "на каждой странице мы запускаем наш RDF-экстрактор на основе библиотеки Anything To Tripleles (Any23)", поэтому все (RDF и микроформат) приводят к "тройкам" (не только RDF),

  • Идея статистики "на домен" заключается в том, что домены используют единую политику для всех страниц... Но я думаю, что это единообразие неверно, только несколько страниц на домен принимают "семантическую разметку"... Это не более объективно, чем URL, только другая картинка. Во всяком случае, результат был мертвой жары, ~57% против 43%.

  • Только 21% "URL-адресов с семантической разметкой" в 2013 году был микроформатом, все остальные - RDFa-HTML (микроданные также являются разновидностью RDFa).

  • используя среднее процентное соотношение доменов (Ds) и URL (Us), (Ds+Us)/2, результат составляет ~60% для RDF и ~40% для микроформатов.

  • До 2013 года преобладали микроформаты, поэтому очевидно, что с 2011 года наблюдается рост "RDFa-HTML"... Тенденция очевидна.

  • Если мы примем среднее арифметическое для подсчетов "на домен" и "на URL", мы получим микроформаты и RDFa-HTML рядом друг с другом, но с меньшим количеством микроформатов (и сильная тенденция к росту RDFa-HTML в 2014 году).

Вот таблица для обсуждения @sashoalm, показывающая проценты и итоги


ПРИМЕЧАНИЕ 1. HTML5 был выпущен только 2014-10-28, поэтому только ~2015-10 мы сможем проверить реальное (окончательное) влияние нового стандарта на Интернет. Важным ожидаемым эффектом является то, что микроданные не были благословлены HTML5, поэтому единственным стандартом является HTML + RDFa (который рекомендует RDFa Lite)... В будущем, возможно, будет меньше микроданных и больше http://schema.org/.

ПРИМЕЧАНИЕ 2: методологическая проблема подсчета веб-страниц, стандартного текста с некоторой огромной клонированной "семантической разметкой": я думаю, что "следующее поколение" статистики может использовать некоторый "анализ по отдельным доменам" для создания субстатистики (выборки) URL-адресов разнообразия (семантически маркированных страниц). Идеально, чтобы взвесить (например, сосчитать один раз не клоны и использовать 1+SQRT(count) клонов) эталон.

Заключение

Возможно, сегодня некоторые люди используют микроформат, но в Интернете появляется больше страниц, использующих RDFa-HTML (микроданные, RDFa, RDFa Lite и т. Д.), И эта тенденция растет.

Если ваш проект рассчитан на следующие годы, статистика говорит об использовании RDFa.


НОТА

Еще один интересный счет для RDFa - это не использование, а повторное использование словарей (!). Смотрите связанные открытые словари (LOV)

LOV

Последняя статистика из WebDataCommons выглядит следующим образом:

Источник: http://webdatacommons.org/structureddata/2016-10/stats/stats.html

Количество проанализированных доменов: 34 миллиона доменов уровня оплаты.
Количество доменов с RDFa, микроданными и микроформатами: 5,63 млн. (16,5%)

Популярность разных форматов: введите описание изображения здесь

Другие вопросы по тегам