Ganglia - gmetad - процесс прекращается SIGSEGV

Я начал видеть эту проблему в последние пару дней. Процесс Ganglia Gemtad завершается в течение 5 минут после его запуска с SIGSEGV (segfault)

Это было стабильно с последних месяцев.. так что не уверен, что изменилось.

Version - gmetad 3.7.1

Я не вижу ни дампов ядра, ни чего-то определенного для gmetad в / var / log / messages или / var / log / secure.

Системная привязка (сверху) во время этого события

load average: 1.97, 0.99, 0.42

Память тоже выглядит неплохо

 free -m
             total       used       free     shared    buffers     cached
Mem:          7989       3624       4364          0        333       2562
-/+ buffers/cache:        728       7260
Swap:         4095          0       4095

У меня есть процесс superviord, который разветвляет и смотрит gmetad -

вот журнал супервизора

2016-10-20 14:34:55,707 INFO exited: gmetad (terminated by SIGSEGV; not expected)
2016-10-20 14:34:55,707 INFO received SIGCLD indicating a child quit
2016-10-20 14:34:57,712 INFO spawned: 'gmetad' with pid 24561
2016-10-20 14:34:59,929 INFO exited: gmetad (terminated by SIGSEGV; not expected)
2016-10-20 14:34:59,929 INFO received SIGCLD indicating a child quit
2016-10-20 14:35:02,932 INFO spawned: 'gmetad' with pid 24593
2016-10-20 14:35:04,897 INFO exited: gmetad (terminated by SIGSEGV; not expected)
2016-10-20 14:35:04,897 INFO received SIGCLD indicating a child quit
2016-10-20 14:35:08,903 INFO spawned: 'gmetad' with pid 24618
2016-10-20 14:35:11,257 INFO exited: gmetad (terminated by SIGSEGV; not expected)
2016-10-20 14:35:11,257 INFO received SIGCLD indicating a child quit
2016-10-20 14:35:12,257 INFO gave up: gmetad entered FATAL state, too many start retries too quickly

Кто-нибудь сталкивался с такой проблемой, в частности, с gmetad? Цените любые указатели.

1 ответ

Я был в состоянии идентифицировать проблему и решить.

Некоторые ключевые шаги / выводы -

  1. Измените 'debug_level' на> 1 в gmetad.conf, чтобы запустить gmetaa на переднем плане и выложить подробный журнал о том, что он делает.
  2. Я обнаружил, что процесс gmetad был убит в тот же момент - когда он пытался обработать файл для определенного узла определенного источника данных.
  3. Вы можете закомментировать все остальные "data_source" из gmetad.conf и попытаться определить, какой узел data_source-> проблематичен.
  4. После выяснения проблемного узла я просто удалил / path / to / rrd / node_dir / file_with_issue или весь каталог dir. (Нужно найти лучший способ, так как это потеря данных)
  5. Измените уровень debug_level и перезапустите gmetad!

В моем случае, чтобы точно указать имя файла - 'part_max_used.rrd' было именем файла в / path / to / ganglia / rrds / имя_узла было основной причиной SIGSEGV

Надеюсь это поможет -)

Другие вопросы по тегам