kube-scheduler создает огромные файлы журналов
Мы на кубе v1.13.10. У нас в кластере ~500 узлов. Недавно я начал получать предупреждения о DiskPressure от мастеров. После некоторых проверок выяснилось, что причина в журналах kube-scheduler. Они выросли в размерах до ~20Гб каждая, а их может быть 5 штук. А у главного экземпляра было только 80 ГБ дискового пространства.
Logrotate настроен на запуск каждый час с отложенным сжатием (настройки kops по умолчанию). Журналы в основном заполнены такими сообщениями
E0929 00:34:27.778731 1 predicates.go:1277] Node not found, ip-10-0-0-1.ec2.internal
E0929 00:34:27.778734 1 predicates.go:1277] Node not found, ip-10-0-0-1.ec2.internal
E0929 00:34:27.778738 1 predicates.go:1277] Node not found, ip-10-0-0-1.ec2.internal
E0929 00:34:27.778742 1 predicates.go:1277] Node not found, ip-10-0-0-1.ec2.internal
E0929 00:34:27.782052 1 predicates.go:1277] Node not found, ip-10-0-0-1.ec2.internal
E0929 00:34:27.782068 1 predicates.go:1277] Node not found, ip-10-0-0-1.ec2.internal
E0929 00:34:27.782073 1 predicates.go:1277] Node not found, ip-10-0-0-1.ec2.internal
E0929 00:34:27.782079 1 predicates.go:1277] Node not found, ip-10-0-0-1.ec2.internal
E0929 00:34:27.782083 1 predicates.go:1277] Node not found, ip-10-0-0-1.ec2.internal
Я увеличил размер диска для мастера. Но почему так много сообщений об ошибках? Он сгенерировал 20 ГБ журналов за 1 час, я думаю, что это немного экстремально. Как мне этого избежать?
1 ответ
Полученное вами сообщение было недавно изменено разработчиками из: "Node not found, %v"
к "Pod %s has NodeName %q but node is not found"
В новом сообщении указано, что на несуществующий узел назначен модуль.
Лучший способ исправить это - удалить узел с помощью kubectl delete node <node_name>
и если это не сработает, попробуйте удалить его из etcd с помощью etcdctl. Таким образом планировщик может переместить модуль на другой узел, что уменьшит журналы ошибок и их размер.
Пожалуйста, дайте мне знать, помогло ли это.