Ganglia - gmetad - процесс прекращается SIGSEGV
Я начал видеть эту проблему в последние пару дней. Процесс Ganglia Gemtad завершается в течение 5 минут после его запуска с SIGSEGV (segfault)
Это было стабильно с последних месяцев.. так что не уверен, что изменилось.
Version - gmetad 3.7.1
Я не вижу ни дампов ядра, ни чего-то определенного для gmetad в / var / log / messages или / var / log / secure.
Системная привязка (сверху) во время этого события
load average: 1.97, 0.99, 0.42
Память тоже выглядит неплохо
free -m
total used free shared buffers cached
Mem: 7989 3624 4364 0 333 2562
-/+ buffers/cache: 728 7260
Swap: 4095 0 4095
У меня есть процесс superviord, который разветвляет и смотрит gmetad -
вот журнал супервизора
2016-10-20 14:34:55,707 INFO exited: gmetad (terminated by SIGSEGV; not expected)
2016-10-20 14:34:55,707 INFO received SIGCLD indicating a child quit
2016-10-20 14:34:57,712 INFO spawned: 'gmetad' with pid 24561
2016-10-20 14:34:59,929 INFO exited: gmetad (terminated by SIGSEGV; not expected)
2016-10-20 14:34:59,929 INFO received SIGCLD indicating a child quit
2016-10-20 14:35:02,932 INFO spawned: 'gmetad' with pid 24593
2016-10-20 14:35:04,897 INFO exited: gmetad (terminated by SIGSEGV; not expected)
2016-10-20 14:35:04,897 INFO received SIGCLD indicating a child quit
2016-10-20 14:35:08,903 INFO spawned: 'gmetad' with pid 24618
2016-10-20 14:35:11,257 INFO exited: gmetad (terminated by SIGSEGV; not expected)
2016-10-20 14:35:11,257 INFO received SIGCLD indicating a child quit
2016-10-20 14:35:12,257 INFO gave up: gmetad entered FATAL state, too many start retries too quickly
Кто-нибудь сталкивался с такой проблемой, в частности, с gmetad? Цените любые указатели.
1 ответ
Я был в состоянии идентифицировать проблему и решить.
Некоторые ключевые шаги / выводы -
- Измените 'debug_level' на> 1 в gmetad.conf, чтобы запустить gmetaa на переднем плане и выложить подробный журнал о том, что он делает.
- Я обнаружил, что процесс gmetad был убит в тот же момент - когда он пытался обработать файл для определенного узла определенного источника данных.
- Вы можете закомментировать все остальные "data_source" из gmetad.conf и попытаться определить, какой узел data_source-> проблематичен.
- После выяснения проблемного узла я просто удалил / path / to / rrd / node_dir / file_with_issue или весь каталог dir. (Нужно найти лучший способ, так как это потеря данных)
- Измените уровень debug_level и перезапустите gmetad!
В моем случае, чтобы точно указать имя файла - 'part_max_used.rrd' было именем файла в / path / to / ganglia / rrds / имя_узла было основной причиной SIGSEGV
Надеюсь это поможет -)