HA - Кардиостимулятор - Есть ли способ очистки автоматически неудачных действий через X сек / мин / час?
Я использую Pacemaker + Corosync в Centos7 Когда один из моих ресурсов вышел из строя / остановился, я получаю сообщение об ошибке:
Master/Slave Set: myoptClone01 [myopt_data01]
Masters: [ pcmk01-cr ]
Slaves: [ pcmk02-cr ]
myopt_fs01 (ocf::heartbeat:Filesystem): Started pcmk01-cr
myopt_VIP01 (ocf::heartbeat:IPaddr2): Started pcmk01-cr
ServicesResource (ocf::heartbeat:RADviewServices): Started pcmk01-cr
Failed Actions:
* ServicesResource_monitor_120000 on pcmk02-cr 'unknown error' (1): call=141, status=complete, exitreason='none',
last-rc-change='Mon Jan 30 10:19:36 2017', queued=0ms, exec=142ms
Есть ли способ автоматически убрать неудачные действия через X сек / мин / час?
1 ответ
Посмотрите на параметр ресурса "fail-timeout". Это автоматически очистит неудачное действие, если больше никаких сбоев для конкретного ресурса не произошло в пределах значения времени ожидания.
Я полагаю, что время ожидания отказа рассчитывается в течение интервала проверки кластера. Это означает, что, даже если время сбоя настроено на 1 минуту, может потребоваться до 15 минут и 59 секунд, чтобы очистить сбойное действие со стандартным 15-минутным интервалом повторной проверки кластера Pacemaker.
Дополнительная информация:
http://clusterlabs.org/doc/en-US/Pacemaker/1.1/html/Pacemaker_Explained/s-failure-migration.html
http://clusterlabs.org/doc/en-US/Pacemaker/1.1/html/Pacemaker_Explained/s-resource-options.html