Часто высокая загрузка процессора при установке netdata в среде Docker
Мы запускаем netdata в среде докера на больших машинах (64 ГБ, 10 процессоров), на многих машинах (>40) выполняется одинаковая настройка, включая postgres, mongo, tomcat, httpd, solr.
Внутри каждой машины есть служба сетевых данных, которая собирает подробные данные и отправляет их в центральный экземпляр сетевых данных. У нас работает 6 таких больших машин в двух разных центрах обработки данных.
Все работает нормально: есть только одна странная проблема, с которой мы сталкиваемся: - поскольку мы интегрировали netdata во все машины, загрузка ЦП увеличивается каждые 90 минут до нагрузки 120 (что очень много для системы с 10 ЦП, где 20 было бы хорошо в течение короткого времени).
Нагрузка остается высокой только в течение нескольких минут, а затем возвращается к уровню 2-4 (что просто означает, что большинство машин большую часть времени бездействует, что верно).
Мы проверили процессы и не нашли ни одного процесса, который производит высокую нагрузку. Единственное, что все сценарии Python Netdata на разных машинах, кажется, работают одновременно и вместе создают высокую нагрузку).
Мониторинг одного Большого Сервера
Что мы уже сделали: - большинство плагинов netdata отключены: мы используем только мониторинг процессоров, сети, диска, tomcat, apache - плагины netdata запускаются только каждые 5 секунд (любая более высокая частота создает еще большую нагрузку, а сервер не возвращается к нормальной загрузке) - отключите плагины для измерения postgres и mongodb (я хотел бы следить за этим, но они полностью ломают сервер, вызывая большую нагрузку)
Мой вопрос:
Как мы можем изменить конфигурацию netdata таким образом, чтобы не возникали регулярные высокие пики загрузки процессора. У нас 40 одинаковых конфигураций, 40 tomcats/apache/sql и т. Д. Является ли это средой докера в сочетании с netdata внутри машин?
Мы можем только догадываться, почему это происходит только каждые 90 минут. Может быть, какой-то шаблон о том, как netdata вызывает плагины, я не знаю...
Любые советы или предложения, как управлять мониторингом в такой системе?