SLURM: Мастер сказал, что он ВВЕРХ и ВНИЗ одновременно.
Я создаю небольшой кластер из 1 главного узла и 6 вычислительных узлов для академических исследовательских целей. В настоящее время у меня есть главный и один вычислительный узел, который я пытаюсь сначала настроить. Когда я запускаю sinfo на главном узле, я получаю:
PARTITION AVAIL TIMELIMIT NODES STATE NODELIST
debug* up infinite 5 down* comp[02-06]debug* up infinite 1 idle comp01
Когда я запускаю scontrol ping на вычислительном узле, я получаю
Slurmctld(primary) at grid is UP
Однако когда я запускаю ту же команду на мастере, я получаю
Slurmctld(primary) at grid is DOWN
Я могу успешно запустить «srun hostname» на вычислительном узле, но получаю эту ошибку в своих журналах, когда запускаю ее на ведущем устройстве:
[2023-07-17T13:12:30.715] error: _getnameinfo: getnameinfo() failed: Name or service not known
[2023-07-17T13:12:30.715] error: auth_p_get_host: Lookup failed for 193.10.1.171
[2023-07-17T13:12:30.716] sched: _slurm_rpc_allocate_resources JobId=3 NodeList=comp01 usec=20150
[2023-07-17T13:12:30.785] _job_complete: JobId=3 WEXITSTATUS 0
[2023-07-17T13:12:30.785] _job_complete: JobId=3 done
[2023-07-17T13:12:40.172] error: _getnameinfo: getnameinfo() failed: Name or service not known
[2023-07-17T13:12:40.172] error: auth_p_get_host: Lookup failed for 10.125.16.198
[2023-07-17T13:12:40.173] sched: _slurm_rpc_allocate_resources JobId=4 NodeList=comp01 usec=19035
[2023-07-17T13:16:39.219] job_step_signal: JobId=4 StepId=0 not found
[2023-07-17T13:16:39.443] job_step_signal: JobId=4 StepId=0 not found
[2023-07-17T13:17:11.002] job_step_signal: JobId=4 StepId=0 not found
[2023-07-17T13:17:11.004] _job_complete: JobId=4 WTERMSIG 126
[2023-07-17T13:17:11.004] _job_complete: JobId=4 cancelled by interactive user
[2023-07-17T13:17:11.004] _job_complete: JobId=4 done
Любая помощь будет оценена по достоинству, поскольку мой срок завершения этого проекта быстро приближается.
Вот соответствующие строки моего файла конфигурации (я отредактировал несвязанные IP-адреса с помощью ____):
ClusterName=cluster1
SlurmctldHost=grid
SlurmctldAddr=193.10.1.92
NodeName=comp01 NodeAddr=193.10.1.171 CPUs=32 Sockets=2 CoresPerSocket=8 ThreadsPerCore=2 RealMemory=15380 State=UNKNOWN
NodeName=comp02 NodeAddr=_________ CPUs=40 Sockets=2 CoresPerSocket=10 ThreadsPerCore=2 RealMemory=31506 State=UNKNOWN
NodeName=comp03 NodeAddr=_________ CPUs=32 Sockets=2 CoresPerSocket=8 ThreadsPerCore=2 RealMemory=31506 State=UNKNOWN
NodeName=comp04 NodeAddr=_________ CPUs=32 Sockets=2 CoresPerSocket=8 ThreadsPerCore=2 RealMemory=15380 State=UNKNOWN
NodeName=comp05 NodeAddr=_________ CPUs=32 Sockets=2 CoresPerSocket=8 ThreadsPerCore=2 RealMemory=15380 State=UNKNOWN
NodeName=comp06 NodeAddr=_________ CPUs=40 Sockets=2 CoresPerSocket=10 ThreadsPerCore=2 RealMemory=31506 State=UNKNOWN
#define partitions
PartitionName=debug Nodes=ALL Default=YES MaxTime=INFINITE State=UPe here
Раньше и master, и comp01 отображали master как UP, однако comp01 не мог запустить srun hostname. Я получал ошибки, описанные здесь. Я поместил ip-адреса master и comp01 в файл /etc/hosts друг друга, как предложено в этом сообщении, и теперь comp01 может запускать имя хоста srun, но теперь у меня возникла проблема, описанная выше.
1 ответ
В сообщении об ошибке указан IP-адрес.10.125.16.198
на который нет ссылки в той части файла конфигурации, которой вы поделились. Вам следует это поискать.
Также убедитесь, что файл конфигурации идентичен на всех узлах, если вы не используете функцию без конфигурации. Одна и та же команда, дающая разные результаты на разных узлах, может быть признаком разных файлов конфигурации.