mpirun: неожиданно произошел сбой демона ORTE.

Я использую новую установку кластера Slurm (версия 20.11.9) с 4 узлами на CentOS 8 Stream и соединением Mellanox infiniband. Драйверы Mellanox созданы на основе этого ISO: https://network.nvidia.com/products/infiniband-drivers/linux/mlnx_ofed/ (версия 5.8-2.0.3.0-LTS для RHEL/Rocky 8.6).

Я добавил совместимость моего ядра сmlnx_add_kernel_support.sh.

Вроде все сделано правильно:

  • обе службы openibd opensmd работают без видимых ошибок
  • ibstat возвращает что-то хорошее

Я скомпилировал OpenMPI 4.1.1 (./configure --disable-io-ompio --enable-mpi-thread-multiple --without-openib --without-verbs --with-ucx=$ucx --with-hwloc=/usr -enable-shared --prefix $sw) с icc v20, ucx 1.11.2 и gcc 9 (из набора инструментов gcc). Такая компиляция работала для другого работающего кластера на CentOS 7.

Когда я запускаю имя хоста mpirun на одной машине, оно работает.

Но если я сделаю то же самое с двумя узлами в интерактивном задании (srun --nodes=2 --ntasks-per-node=1 --pty bash -i), это не удается:

      [1019]user@node01:~ $ mpirun hostname
--------------------------------------------------------------------------
An ORTE daemon has unexpectedly failed after launch and before
communicating back to mpirun. This could be caused by a number
of factors, including an inability to create a connection back
to mpirun due to a lack of common network interfaces and/or no
route found between them. Please check network connectivity
(including firewalls and network routing requirements).
--------------------------------------------------------------------------

Вот журнал с большей подробностью (mpirun -debug-daemons --mca plm_base_verbose 5 -mca oob_base_verbose 10 -mca rml_base_verbose 10 -np 1 hostname): https://pastebin.com/680azqpa

Укороченная версия :

      [node01:2220381] [[63667,0],0] plm:slurm: final top-level argv:
        srun --ntasks-per-node=1 --kill-on-bad-exit --mpi=none --nodes=1 --nodelist=node02 --ntasks=1 orted -mca orte_debug_daemons "1" -mca ess "slurm" -mca ess_base_jobid "4172480512" -mca ess_base_vpid "1" -mca ess_base_num_procs "2" -mca orte_node_regex "node[2:01-02]@0(2)" -mca orte_hnp_uri "4172480512.0;tcp://<ip_node_01>:51187" --mca plm_base_verbose "5" -mca oob_base_verbose "10" -mca rml_base_verbose "10"
srun: error: Unable to create step for job 18: Requested node configuration is not available
--------------------------------------------------------------------------
An ORTE daemon has unexpectedly failed after launch and before
communicating back to mpirun. This could be caused by a number
of factors, including an inability to create a connection back
to mpirun due to a lack of common network interfaces and/or no
route found between them. Please check network connectivity
(including firewalls and network routing requirements).

Какую проверку я могу сделать? Как узнать, где проблема?

0 ответов

Другие вопросы по тегам