kube-scheduler создает огромные файлы журналов

Question

kube-scheduler создает огромные файлы журналов

Мы на кубе v1.13.10. У нас в кластере ~500 узлов. Недавно я начал получать предупреждения о DiskPressure от мастеров. После некоторых проверок выяснилось, что причина в журналах kube-scheduler. Они выросли в размерах до ~20Гб каждая, а их может быть 5 штук. А у главного экземпляра было только 80 ГБ дискового пространства.
Logrotate настроен на запуск каждый час с отложенным сжатием (настройки kops по умолчанию). Журналы в основном заполнены такими сообщениями

E0929 00:34:27.778731       1 predicates.go:1277] Node not found, ip-10-0-0-1.ec2.internal
E0929 00:34:27.778734       1 predicates.go:1277] Node not found, ip-10-0-0-1.ec2.internal
E0929 00:34:27.778738       1 predicates.go:1277] Node not found, ip-10-0-0-1.ec2.internal
E0929 00:34:27.778742       1 predicates.go:1277] Node not found, ip-10-0-0-1.ec2.internal
E0929 00:34:27.782052       1 predicates.go:1277] Node not found, ip-10-0-0-1.ec2.internal
E0929 00:34:27.782068       1 predicates.go:1277] Node not found, ip-10-0-0-1.ec2.internal
E0929 00:34:27.782073       1 predicates.go:1277] Node not found, ip-10-0-0-1.ec2.internal
E0929 00:34:27.782079       1 predicates.go:1277] Node not found, ip-10-0-0-1.ec2.internal
E0929 00:34:27.782083       1 predicates.go:1277] Node not found, ip-10-0-0-1.ec2.internal

Я увеличил размер диска для мастера. Но почему так много сообщений об ошибках? Он сгенерировал 20 ГБ журналов за 1 час, я думаю, что это немного экстремально. Как мне этого избежать?

0

kubernetes logging kube-scheduler

Источник

user293406 29 сен '19 в 10:00

1 ответ

Другие вопросы по тегам kubernetes logging kube-scheduler

user11560878 08 окт '19 в 10:50 2019-10-08 10:50 · Answer 1 · 2019-10-08 10:50

Полученное вами сообщение было недавно изменено разработчиками из: "Node not found, %v" к "Pod %s has NodeName %q but node is not found"В новом сообщении указано, что на несуществующий узел назначен модуль.

Лучший способ исправить это - удалить узел с помощью kubectl delete node <node_name>и если это не сработает, попробуйте удалить его из etcd с помощью etcdctl. Таким образом планировщик может переместить модуль на другой узел, что уменьшит журналы ошибок и их размер.

Пожалуйста, дайте мне знать, помогло ли это.