Журналы пряжи - stdout и stderr стали огромными файлами - как этого избежать

Дорогие друзья и колледжи

у нас есть кластер ambari с версией hadoop - кластер 2.6.4 включает в себя 52 машины с датодами, и следующая проблема возникает на 9 машинах с датодами

поэтому я объясню проблему:

Мы заметили о критической проблеме, касающейся пряжи

Мы увидели, что stderr и stdout - это огромные файлы. В нашем случае sdb - это соответствующий диск, а размер sdb составляет всего 20 ГБ, так что на самом деле stderr и stdout - это 7 ГБ каждого файла.

Итак /grid/sdb заполнился

У меня вопрос - можно ли ограничить эти файлы?

[root@datanode04 container_e41_1549894743658_0020_02_000002]# df -h /grid/sdb
Filesystem      Size  Used Avail Use% Mounted on
/dev/sdb         20G   20G  712K 100% /grid/sdb
[root@datanode04 container_e41_1549894743658_0020_02_000002]# pwd
/grid/sdb/hadoop/yarn/log/application_1549894743658_0020/container_e41_1549894743658_0020_02_000002
[root@datanode04 container_e41_1549894743658_0020_02_000002]# du -sh *
6.9G    stderr
6.9G    stdout

1 ответ

Это распространенный сценарий получения больших файлов журналов в кластере hadoop из-за накопления журналов, так как в кластере hadoop работают несколько служб. Если вы работаете с управляемым Ambari кластером hadoop, вам необходимо настроить log4j.properties из Ambari. Вы можете настроить это для служб, работающих в вашем кластере hadoop. Это обеспечит ротацию и сохранение журналов в вашем кластере hadoop.

Вот ссылка для справки из hortonwork (HDP), где можно найти информацию о настройке свойств log4j различных сервисов, работающих в кластере hadoop. Надеюсь, это будет полезно.

Другие вопросы по тегам