Сигналы тревоги AWS Cloudwatch не возвращаются в состояние OK из состояния тревоги, уведомляя тему SNS в течение трех последовательных периодов
Я создал ALARM для лямбды ([ОШИБКИ]) на пользовательском метрическом фильтре. Ниже приведена конфигурация для метрического фильтра и сигнализации.
logs.put_metric_filter(
logGroupName='/aws/lambda/' + functionname,
filterName=functionname +'_error_stage',
filterPattern='"ERROR"',
metricTransformations=[
{
'metricName': functionname +'_error_stage',
'metricNamespace': 'lamda_error',
'metricValue': '1',
'defaultValue': 0
},
]
)
Конфигурация для метрической сигнализации.
cloudwatch.put_metric_alarm(
ActionsEnabled=True,
AlarmActions=[
"arn:aws:sns:us-west-2:653453327677:logs_error_mail"
],
AlarmName=alarm_name,
ComparisonOperator= "GreaterThanOrEqualToThreshold",
EvaluationPeriods=1,
InsufficientDataActions=[],
MetricName=function_name + '_error_stage',
Namespace="lamda_error",
OKActions=[],
Period=300,
Statistic="Sum",
Threshold=1.0,
TreatMissingData="missing"
)
Работает все нормально, но проблема в том, что когда срабатывает тревога, она также срабатывает в течение следующих 3 последовательных периодов. Это связано с тем, что аварийные сигналы не возвращаются в нормальное состояние через пять минут. Как изменить конфигурацию, чтобы она не запускалась ложно.