Запрос PromQL для расчета времени безотказной работы и простоя службы с фиксированной даты

Я пытаюсь создать базовую панель управления SRE, чтобы изучить Prometheus/Grafana.

Я хочу рассчитать количество часов, в течение которых служба работает, и количество часов, в течение которых она не работала с 1 января текущего года, чтобы я мог сократить время простоя из бюджета ошибок. Можно ли это вычислить с помощью запроса PromQL?

Я бы предпочел использовать такую ​​метрику, как up который будет доступен независимо от используемой экспортной / клиентской библиотеки.

1 ответ

Прежде всего, вы пытаетесь рассчитать доступность сервиса Prometheus или доступность сервисов, которые контролируются Prometheus?

Если это первый случай, вы можете использовать метрику «вверх», если второй, то вы можете использовать, например, метрику «probe_success» из экспортера Blackbox.

См. Дополнительную информацию о различиях "up" и "probe_success" здесь.

См. Дополнительную информацию об экспортере Blackbox здесь.

Вы можете рассчитать доступность (в процентах) с помощью следующего запроса:

      100 * avg_over_time(probe_success{instance="xxxxx"}[1w])
Другие вопросы по тегам