mpirun: неожиданно произошел сбой демона ORTE.
Я использую новую установку кластера Slurm (версия 20.11.9) с 4 узлами на CentOS 8 Stream и соединением Mellanox infiniband. Драйверы Mellanox созданы на основе этого ISO: https://network.nvidia.com/products/infiniband-drivers/linux/mlnx_ofed/ (версия 5.8-2.0.3.0-LTS для RHEL/Rocky 8.6).
Я добавил совместимость моего ядра сmlnx_add_kernel_support.sh
.
Вроде все сделано правильно:
- обе службы openibd opensmd работают без видимых ошибок
- ibstat возвращает что-то хорошее
Я скомпилировал OpenMPI 4.1.1 (./configure --disable-io-ompio --enable-mpi-thread-multiple --without-openib --without-verbs --with-ucx=$ucx --with-hwloc=/usr -enable-shared --prefix $sw
) с icc v20, ucx 1.11.2 и gcc 9 (из набора инструментов gcc). Такая компиляция работала для другого работающего кластера на CentOS 7.
Когда я запускаю имя хоста mpirun на одной машине, оно работает.
Но если я сделаю то же самое с двумя узлами в интерактивном задании (srun --nodes=2 --ntasks-per-node=1 --pty bash -i
), это не удается:
[1019]user@node01:~ $ mpirun hostname
--------------------------------------------------------------------------
An ORTE daemon has unexpectedly failed after launch and before
communicating back to mpirun. This could be caused by a number
of factors, including an inability to create a connection back
to mpirun due to a lack of common network interfaces and/or no
route found between them. Please check network connectivity
(including firewalls and network routing requirements).
--------------------------------------------------------------------------
Вот журнал с большей подробностью (mpirun -debug-daemons --mca plm_base_verbose 5 -mca oob_base_verbose 10 -mca rml_base_verbose 10 -np 1 hostname
): https://pastebin.com/680azqpa
Укороченная версия :
[node01:2220381] [[63667,0],0] plm:slurm: final top-level argv:
srun --ntasks-per-node=1 --kill-on-bad-exit --mpi=none --nodes=1 --nodelist=node02 --ntasks=1 orted -mca orte_debug_daemons "1" -mca ess "slurm" -mca ess_base_jobid "4172480512" -mca ess_base_vpid "1" -mca ess_base_num_procs "2" -mca orte_node_regex "node[2:01-02]@0(2)" -mca orte_hnp_uri "4172480512.0;tcp://<ip_node_01>:51187" --mca plm_base_verbose "5" -mca oob_base_verbose "10" -mca rml_base_verbose "10"
srun: error: Unable to create step for job 18: Requested node configuration is not available
--------------------------------------------------------------------------
An ORTE daemon has unexpectedly failed after launch and before
communicating back to mpirun. This could be caused by a number
of factors, including an inability to create a connection back
to mpirun due to a lack of common network interfaces and/or no
route found between them. Please check network connectivity
(including firewalls and network routing requirements).
Какую проверку я могу сделать? Как узнать, где проблема?