Запуск нескольких рабочих демонов SLURM
Я хочу запустить несколько рабочих демонов на одной машине. В соответствии damienfrancois ответом damienfrancois о том, какое минимальное количество компьютеров для кластера грязи, это можно сделать. Проблема в настоящее время я могу выполнить только 1 рабочий демон на одной машине. например
Когда я бегу
sudo slurmd -N linux1 -cDvv
sudo slurmd -N linux2 -cDvv
linux1 отключается, когда я запускаю linux2. Можно ли запустить несколько рабочих демонов на одной машине? Вот мой файл slurm.conf
2 ответа
Поскольку ваше намерение состоит в том, чтобы просто протестировать поведение Slurm, я бы порекомендовал вам использовать интерфейсный режим, в котором вы можете создавать фиктивные вычислительные узлы на одной машине.
В их FAQ у вас есть больше деталей, но в основном вы должны настроить свою установку для работы в этом режиме:
./configure --enable-front-end
И настройте узлы в slurm.conf
NodeName=test[1-100] NodeHostName=localhost
В этом руководстве они также объясняют, как запускать более одного реального демона в одном узле путем изменения портов, но для моих целей тестирования это было не нужно.
Удачи!
У меня возникла та же проблема, что и у вас, я решил ее, изменив пути к файлам журналов, как там упоминалось, поддержка нескольких slurmd. Например, в вашем slurm.conf
SlurmdLogFile=/var/log/slurm/slurmd.log
SlurmdPidFile=/var/run/slurmd.pid
SlurmdSpoolDir=/var/spool/slurmd
должно быть
SlurmdLogFile=/var/log/slurm/slurmd.%n.log
SlurmdPidFile=/var/run/slurmd.%n.pid
SlurmdSpoolDir=/var/spool/slurmd.%n
Теперь вы можете запустить несколько slurmd.
Примечание: я попытался использовать вашу slurm conf, я думаю, что некоторые параметры отсутствуют, например, определить два NodeName вместо одного и добавить, какой порт использовать для каждого из узлов. Это работает для меня
# COMPUTE NODES
NodeName=linux[1-10] NodeHostname=linux0 Port=17004 CPUs=1 State=UNKNOWN
NodeName=linux[11-19] NodeHostname=linux0 Port=17005 CPUs=1 State=UNKNOWN
# PARTITIONS
PartitionName=main Nodes=linux1 Default=YES MaxTime=INFINITE State=UP
PartitionName=dev Nodes=linux11 Default=YES MaxTime=INFINITE State=UP