Как обнаружить исключение, произошедшее в Стручке в Кубернетесе?
У меня есть многоузловой кластер kubernetes. Несколько сервисов развертываются как Pod. Они общаются друг с другом через rabbitmq, который также существует в кластере как Pod.
Сценарий проблемы:
Многие службы времени не могут подключиться к требуемой очереди в Rabbitmq. Журналы для того же самого регистрируются в журналах Rabbitmq pod и на сервисах Pod также. Это происходит главным образом из-за проблем с подключением и является противоречивым. Из-за этого сбой функционал нарушается. А также, поскольку это НЕ аварийное завершение работы, pod всегда находится в рабочем состоянии в kubernetes. Чтобы это исправить, мы должны вручную зайти и перезагрузить модуль.
Я хочу создать тест живучести для каждой капсулы. Но как это должно работать, чтобы поймать исключение? Поскольку многие процессы в службе могут пытаться получить доступ к соединению, любой из них может потерпеть неудачу.
1 ответ
Я бы предложил реализовать конечную точку http для проверки живучести, которая проверила бы состояние w соединения с rabbitmq или фактически потерпела неудачу и завершила весь процесс, когда соединение кролика не работает.
Но... наилучшим решением было бы повторять попытку подключения на неопределенный срок, когда оно выходит из строя, так что временная проблема с сетью прозрачно устраняется. Хорошо написанный сервис должен ждать, пока зависимые сервисы станут работоспособными, а не каскадировать сбой вверх по стеку.
Представьте, что у вас есть проверка на живучесть, как вы спрашиваете здесь на 20 сервисах, использующих этот кролик или другой сервис. Эта служба не работает в течение некоторого времени, и в результате вы получаете кластер с более чем 20 службами в состоянии CrashLoopBackoff из-за постепенного отката при сбое. Это означает, что вашему кластеру потребуется некоторое время для восстановления, когда вернется этот изначально сбойный сервис, а также картина будет довольно испорчена и затруднит понимание того, что произошло на первый взгляд.