Запуск нескольких рабочих демонов SLURM

Я хочу запустить несколько рабочих демонов на одной машине. В соответствии damienfrancois ответом damienfrancois о том, какое минимальное количество компьютеров для кластера грязи, это можно сделать. Проблема в настоящее время я могу выполнить только 1 рабочий демон на одной машине. например

Когда я бегу

sudo slurmd -N linux1 -cDvv
sudo slurmd -N linux2 -cDvv

linux1 отключается, когда я запускаю linux2. Можно ли запустить несколько рабочих демонов на одной машине? Вот мой файл slurm.conf

2 ответа

Решение

Поскольку ваше намерение состоит в том, чтобы просто протестировать поведение Slurm, я бы порекомендовал вам использовать интерфейсный режим, в котором вы можете создавать фиктивные вычислительные узлы на одной машине.

В их FAQ у вас есть больше деталей, но в основном вы должны настроить свою установку для работы в этом режиме:

./configure --enable-front-end  

И настройте узлы в slurm.conf

NodeName=test[1-100] NodeHostName=localhost

В этом руководстве они также объясняют, как запускать более одного реального демона в одном узле путем изменения портов, но для моих целей тестирования это было не нужно.

Удачи!

У меня возникла та же проблема, что и у вас, я решил ее, изменив пути к файлам журналов, как там упоминалось, поддержка нескольких slurmd. Например, в вашем slurm.conf

SlurmdLogFile=/var/log/slurm/slurmd.log
SlurmdPidFile=/var/run/slurmd.pid
SlurmdSpoolDir=/var/spool/slurmd

должно быть

SlurmdLogFile=/var/log/slurm/slurmd.%n.log
SlurmdPidFile=/var/run/slurmd.%n.pid
SlurmdSpoolDir=/var/spool/slurmd.%n

Теперь вы можете запустить несколько slurmd.

Примечание: я попытался использовать вашу slurm conf, я думаю, что некоторые параметры отсутствуют, например, определить два NodeName вместо одного и добавить, какой порт использовать для каждого из узлов. Это работает для меня

# COMPUTE NODES
NodeName=linux[1-10] NodeHostname=linux0 Port=17004 CPUs=1 State=UNKNOWN
NodeName=linux[11-19] NodeHostname=linux0 Port=17005 CPUs=1 State=UNKNOWN
# PARTITIONS
PartitionName=main Nodes=linux1  Default=YES MaxTime=INFINITE State=UP
PartitionName=dev Nodes=linux11  Default=YES MaxTime=INFINITE State=UP 
Другие вопросы по тегам