Правильно ли ограничивать очистку /tmp каждый день в кластере hadoop
У нас есть версия кластера HDP - 2.6.4
Кластер установлен на redhat версии машины - 7.2
Мы заметили следующую проблему на компьютерах JournalNodes (мастер-машины)
У нас есть 3 машины JournalNodes, и в папке /tmp у нас есть тысячи пустых папок.
drwx------. 2 hive hadoop 6 Dec 20 09:00 a962c02e-4ed8-48a0-b4bb-79c76133c3ca_resources
также много папок, как
drwxr-xr-x. 4 hive hadoop 4096 Dec 12 09:02 hadoop-unjar6426565859280369566
с содержанием как
beeline-log4j.properties BeeLine.properties META-INF org sql-keywords.properties
/tmp следует очищать каждые 10 дней в соответствии с файлом конфигурации:
more /usr/lib/tmpfiles.d/tmp.conf
# This file is part of systemd.
#
# systemd is free software; you can redistribute it and/or modify it
# under the terms of the GNU Lesser General Public License as published by
# the Free Software Foundation; either version 2.1 of the License, or
# (at your option) any later version.
# See tmpfiles.d(5) for details
# Clear tmp directories separately, to make them easier to override
v /tmp 1777 root root 10d
v /var/tmp 1777 root root 30d
# Exclude namespace mountpoints created with PrivateTmp=yes
x /tmp/systemd-private-%b-*
X /tmp/systemd-private-%b-*/tmp
x /var/tmp/systemd-private-%b-*
X /var/tmp/systemd-private-%b-*/tmp
You have new mail in /var/spool/mail/root
Поэтому мы уменьшаем срок хранения до 1 дня вместо 10 дней, чтобы избежать этой проблемы.
Тогда действительно /tmp имеют только содержимое папки одного дня
Но я хочу задать следующие вопросы
Можно ли настроить сохранение около /tmp в кластере Hadoop на 1 день?
(Я почти уверен, что все в порядке, но хочу услышать больше мнений)
второй
Почему HIVE генерирует тысячи пустых папок как XXXX_resources,
и возможно ли решить это из службы HIVE, вместо этого, чтобы ограничить срок хранения на /tmp
1 ответ
Вполне нормально иметь тысячи папок в /tmp, если для нормального запуска все еще остается свободное место. Многие процессы используют /tmp, включая Hive, Pig и т. Д. Однодневный срок хранения /tmp может быть слишком мал, потому что обычно задачи Hive или другие задачи сокращения карты могут выполняться более одного дня, хотя это зависит от ваших задач. HiveServer должен удалять временные файлы, но когда задачи не выполняются или прерываются, файлы могут остаться, также это зависит от версии Hive. Лучше настроить некоторую задержку, потому что, когда в /tmp не осталось места, все перестает работать.
Читайте также этот Jira о сохранении нуля в HDFS.