Журналы пряжи - stdout и stderr стали огромными файлами - как этого избежать
Дорогие друзья и колледжи
у нас есть кластер ambari с версией hadoop - кластер 2.6.4 включает в себя 52 машины с датодами, и следующая проблема возникает на 9 машинах с датодами
поэтому я объясню проблему:
Мы заметили о критической проблеме, касающейся пряжи
Мы увидели, что stderr и stdout - это огромные файлы. В нашем случае sdb - это соответствующий диск, а размер sdb составляет всего 20 ГБ, так что на самом деле stderr и stdout - это 7 ГБ каждого файла.
Итак /grid/sdb заполнился
У меня вопрос - можно ли ограничить эти файлы?
[root@datanode04 container_e41_1549894743658_0020_02_000002]# df -h /grid/sdb
Filesystem Size Used Avail Use% Mounted on
/dev/sdb 20G 20G 712K 100% /grid/sdb
[root@datanode04 container_e41_1549894743658_0020_02_000002]# pwd
/grid/sdb/hadoop/yarn/log/application_1549894743658_0020/container_e41_1549894743658_0020_02_000002
[root@datanode04 container_e41_1549894743658_0020_02_000002]# du -sh *
6.9G stderr
6.9G stdout
1 ответ
Это распространенный сценарий получения больших файлов журналов в кластере hadoop из-за накопления журналов, так как в кластере hadoop работают несколько служб. Если вы работаете с управляемым Ambari кластером hadoop, вам необходимо настроить log4j.properties из Ambari. Вы можете настроить это для служб, работающих в вашем кластере hadoop. Это обеспечит ротацию и сохранение журналов в вашем кластере hadoop.
Вот ссылка для справки из hortonwork (HDP), где можно найти информацию о настройке свойств log4j различных сервисов, работающих в кластере hadoop. Надеюсь, это будет полезно.