Slurm: неверные данные о работе

Я попытался настроить кластер Slurm, состоящий из одного вычислительного узла и одного управляющего узла.

В настоящее время запуск некоторых задач не работает. Узел иногда просто отключается, даже если очередь не пуста. Srun никогда не работает, но Satch - да.

      #srun -N1 -l /bin/hostname
run: error: Task launch for StepId=28.0 failed on node toto2: Invalid job credential
srun: error: Application launch failed: Invalid job credential
srun: Job step aborted: Waiting up to 32 seconds for job step to finish.

Я уже настроил ключ Munge у хорошего пользователя, кодирование и декодирование возможно:

      #munge -n | ssh slurm@toto2 unmunge
STATUS:           Success (0)
ENCODE_HOST:      toto2 (10.0.0.2)
ENCODE_TIME:      2023-09-29 11:23:31 +0200 (1695979411)
DECODE_TIME:      2023-09-29 11:23:31 +0200 (1695979411)
TTL:              300
CIPHER:           aes128 (4)
MAC:              sha256 (5)
ZIP:              none (0)
UID:              root (0)
GID:              root (0)
LENGTH:           0

иногда работает пакетная обработка, но если пакетное задание не запускается сразу, вычислительный узел может перестать отвечать, и мне придется снова вручную переводить его в режим ожидания, даже если мой узел доступен через SSH.

Мой мунг-сервис это:

      #cat /lib/systemd/system/munge.service
[Unit]
Description=MUNGE authentication service
Documentation=man:munged(8)
After=network.target
After=time-sync.target

[Service]
Type=forking
ExecStart=/usr/sbin/munged
PIDFile=/var/run/munge/munged.pid
User=munge
Group=munge
Restart=on-abort

[Install]
WantedBy=multi-user.target

В toto1 (управляющий узел) slurmctl запускается с: User=slurm В toto2 (вычислительный узел) slurmctl запускается с: User=root

И, конечно же, UID/GID пользователя slurm и munge одинаковы на обоих узлах.

0 ответов

Другие вопросы по тегам