Все стручки Kubernetes периодически выходят из строя одновременно

Я уже некоторое время управляю кластером Kubernetes, но мне не удалось сохранить его стабильность. Мой кластер состоит из четырех узлов, двух мастеров и двух рабочих. Все узлы работают на одном физическом сервере, на котором, в свою очередь, работает VMware vSphere 6.5. На каждом узле работает стабильная версия CoreOS (1353.7.0), а я использую Kubernetes/Hyperkube v1.6.4, используя Calico для работы в сети. Я следовал за шагами в этом руководстве.

Что происходит, так это то, что в течение нескольких часов / дней кластер будет работать без помех. Затем, внезапно (безо всякой видимой причины, насколько я могу судить) все мои капсулы переходят в состояние "Ожидание" и остаются такими. Любые размещенные сервисы более недоступны. Через некоторое время (обычно от 5 до 10 минут) он, кажется, восстанавливается, после чего он начинает воссоздавать все мои модули и пытается (но не удается) закрыть все мои запущенные модули. Некоторые из недавно созданных модулей появляются, но изначально не будут подключены к Интернету.

В течение нескольких недель у меня периодически возникала эта проблема, и она мешала мне использовать Kubernetes в производстве. Я бы очень хотел выяснить, что вызвало это!

Как ни странно, когда я пытаюсь диагностировать проблему путем проверки журналов, я заметил, что на обоих моих рабочих узлах журналы journald будут повреждены! На главных узлах журнал по-прежнему читается, но не очень информативно.

Даже во время работы kubelet постоянно выдает ошибки в своих журналах. На всех узлах это то, что публикуется примерно раз в минуту:

May 26 09:37:14 kube-master1 kubelet-wrapper[24228]: E0526 09:37:14.012890   24228 cni.go:275] Error deleting network: open /var/lib/cni/flannel/3975179a14dac15cd41881266c9bfd6b8763c0a48934147582cb55d5618a9233: no such file or directory
May 26 09:37:14 kube-master1 kubelet-wrapper[24228]: E0526 09:37:14.014762   24228 remote_runtime.go:109] StopPodSandbox "3975179a14dac15cd41881266c9bfd6b8763c0a48934147582cb55d5618a9233" from runtime service failed: rpc error: code = 2 desc = NetworkPlugin cni failed to teardown pod "logstash-s3498_default" network: open /var/lib/cni/flannel/3975179a14dac15cd41881266c9bfd6b8763c0a48934147582cb55d5618a9233: no such file or directory
May 26 09:37:14 kube-master1 kubelet-wrapper[24228]: E0526 09:37:14.014818   24228 kuberuntime_gc.go:138] Failed to stop sandbox "3975179a14dac15cd41881266c9bfd6b8763c0a48934147582cb55d5618a9233" before removing: rpc error: code = 2 desc = NetworkPlugin cni failed to teardown pod "logstash-s3498_default" network: open /var/lib/cni/flannel/3975179a14dac15cd41881266c9bfd6b8763c0a48934147582cb55d5618a9233: no such file or directory
May 26 09:38:07 kube-master1 kubelet-wrapper[24228]: I0526 09:38:07.422341   24228 operation_generator.go:597] MountVolume.SetUp succeeded for volume "kubernetes.io/secret/9a378211-3597-11e7-a7ec-000c2958a0d7-default-token-0p3gf" (spec.Name: "default-token-0p3gf") pod "9a378211-3597-11e7-a7ec-000c2958a0d7" (UID: "9a378211-3597-11e7-a7ec-000c2958a0d7").
May 26 09:38:14 kube-master1 kubelet-wrapper[24228]: W0526 09:38:14.037553   24228 docker_sandbox.go:263] NetworkPlugin cni failed on the status hook for pod "logstash-s3498_default": Unexpected command output nsenter: cannot open : No such file or directory
May 26 09:38:14 kube-master1 kubelet-wrapper[24228]:  with error: exit status 1

Я погуглил эту ошибку, столкнулся с этой проблемой, но она была закрыта, и люди указывают, что использование v1.6.0 или новее должно решить ее, но в моем случае это точно не произошло

Кто-нибудь может указать мне правильное направление?!

Спасибо!

1 ответ

Видел это тоже. проблема, похоже, исчезнет, ​​если вы вернете CoreOS к более старой версии с докером 1.12.3.

Docker - это кошмар с регрессами в каждой выпущенной ими версии:(

Другие вопросы по тегам