COMPSs - узлы уже заполнены ошибкой

После подачи заявления COMPS я получил следующее сообщение об ошибке, и приложение не выполняется.

MPI_CMD=mpirun -timestamp-output -n 1 -H s00r0
/apps/COMPSs/1.3/Runtime/scripts/user/runcompss
--project=/tmp/1668183.tmpdir/project_1458303603.xml
--resources=/tmp/1668183.tmpdir/resources_1458303603.xml
--uuid=2ed20e6a-9f02-49ff-a71c-e071ce35dacc
/apps/FILESPACE/pycompssfile arg1 arg2 : -n 1 -H s00r0
/apps/COMPSs/1.3/Runtime/scripts/system/adaptors/nio/persistent_worker_starter.sh
/apps/INTEL/mkl/lib/intel64 null
/home/myhome/kmeans_python/src/ true
/tmp/1668183.tmpdir 4 5 5 s00r0-ib0 43001 43000 true 1
/apps/COMPSs/1.3/Runtime/scripts/system/2ed20e6a-9f02-49ff-a71c-e071ce35dacc : -n 1 -H s00r0
/apps/COMPSs/1.3/Runtime/scripts/system/adaptors/nio/persistent_worker_starter.sh
/apps/INTEL/mkl/lib/intel64 null
/home/myhome/kmeans_python/src/ true
/tmp/1668183.tmpdir 4 5 5 s00r0-ib0 43001 43000 true 2
/apps/COMPSs/1.3/Runtime/scripts/system/2ed20e6a-9f02-49ff-a71c-e071ce35dacc

--------------------------------------------------------------------------
All nodes which are allocated for this job are already filled.
--------------------------------------------------------------------------

Я использую COMPSs 1.3.

Почему это происходит?

1 ответ

Решение

Вы пытаетесь запустить мастера и работника в одном узле. COMPSs 1.3 в кластере с адаптером NIO (опция по умолчанию) использует mpirun для порождения главного и рабочего процессов в разных узлах кластера, а установленный в кластере mpirun не позволяет этого делать.

Варианты решения этой проблемы следующие:

  1. Вы не указываете --tasks_in_master= в команде enqueue_compss.
  2. Вы выполняете с помощью адаптера GAT (--comm = integratedtoolkit.gat.master.GAT Adaptor), который имеет больше накладных расходов

В следующем выпуске программного обеспечения COMPS будет использоваться команда spawn, доступная в разных менеджерах ресурсов кластера (таких как blaunch, srun), которые должны решить эту проблему

Другие вопросы по тегам