Slurm: неверные данные о работе
Я попытался настроить кластер Slurm, состоящий из одного вычислительного узла и одного управляющего узла.
В настоящее время запуск некоторых задач не работает. Узел иногда просто отключается, даже если очередь не пуста. Srun никогда не работает, но Satch - да.
#srun -N1 -l /bin/hostname
run: error: Task launch for StepId=28.0 failed on node toto2: Invalid job credential
srun: error: Application launch failed: Invalid job credential
srun: Job step aborted: Waiting up to 32 seconds for job step to finish.
Я уже настроил ключ Munge у хорошего пользователя, кодирование и декодирование возможно:
#munge -n | ssh slurm@toto2 unmunge
STATUS: Success (0)
ENCODE_HOST: toto2 (10.0.0.2)
ENCODE_TIME: 2023-09-29 11:23:31 +0200 (1695979411)
DECODE_TIME: 2023-09-29 11:23:31 +0200 (1695979411)
TTL: 300
CIPHER: aes128 (4)
MAC: sha256 (5)
ZIP: none (0)
UID: root (0)
GID: root (0)
LENGTH: 0
иногда работает пакетная обработка, но если пакетное задание не запускается сразу, вычислительный узел может перестать отвечать, и мне придется снова вручную переводить его в режим ожидания, даже если мой узел доступен через SSH.
Мой мунг-сервис это:
#cat /lib/systemd/system/munge.service
[Unit]
Description=MUNGE authentication service
Documentation=man:munged(8)
After=network.target
After=time-sync.target
[Service]
Type=forking
ExecStart=/usr/sbin/munged
PIDFile=/var/run/munge/munged.pid
User=munge
Group=munge
Restart=on-abort
[Install]
WantedBy=multi-user.target
В toto1 (управляющий узел) slurmctl запускается с: User=slurm В toto2 (вычислительный узел) slurmctl запускается с: User=root
И, конечно же, UID/GID пользователя slurm и munge одинаковы на обоих узлах.