Часто высокая загрузка процессора при установке netdata в среде Docker

Question

Часто высокая загрузка процессора при установке netdata в среде Docker

Мы запускаем netdata в среде докера на больших машинах (64 ГБ, 10 процессоров), на многих машинах (>40) выполняется одинаковая настройка, включая postgres, mongo, tomcat, httpd, solr.

Внутри каждой машины есть служба сетевых данных, которая собирает подробные данные и отправляет их в центральный экземпляр сетевых данных. У нас работает 6 таких больших машин в двух разных центрах обработки данных.

Все работает нормально: есть только одна странная проблема, с которой мы сталкиваемся: - поскольку мы интегрировали netdata во все машины, загрузка ЦП увеличивается каждые 90 минут до нагрузки 120 (что очень много для системы с 10 ЦП, где 20 было бы хорошо в течение короткого времени).

Нагрузка остается высокой только в течение нескольких минут, а затем возвращается к уровню 2-4 (что просто означает, что большинство машин большую часть времени бездействует, что верно).

Мы проверили процессы и не нашли ни одного процесса, который производит высокую нагрузку. Единственное, что все сценарии Python Netdata на разных машинах, кажется, работают одновременно и вместе создают высокую нагрузку).

Мониторинг одного Большого Сервера

Что мы уже сделали: - большинство плагинов netdata отключены: мы используем только мониторинг процессоров, сети, диска, tomcat, apache - плагины netdata запускаются только каждые 5 секунд (любая более высокая частота создает еще большую нагрузку, а сервер не возвращается к нормальной загрузке) - отключите плагины для измерения postgres и mongodb (я хотел бы следить за этим, но они полностью ломают сервер, вызывая большую нагрузку)

Мой вопрос:

Как мы можем изменить конфигурацию netdata таким образом, чтобы не возникали регулярные высокие пики загрузки процессора. У нас 40 одинаковых конфигураций, 40 tomcats/apache/sql и т. Д. Является ли это средой докера в сочетании с netdata внутри машин?

Мы можем только догадываться, почему это происходит только каждые 90 минут. Может быть, какой-то шаблон о том, как netdata вызывает плагины, я не знаю...

Любые советы или предложения, как управлять мониторингом в такой системе?

3

load netdata

Источник

user6318209 09 май '18 в 07:22

0 ответов

Другие вопросы по тегам load netdata