Крутящий момент не ограничивает количество узлов, используемых mpiexec
Поэтому я одновременно запускаю следующие файлы pbs:
qsub / mnt / folder / prueba1_1 qsub / mnt / folder / prueba01
А вот файлы
prueba1_1
#!/bin/bash
#PBS -N pruebaF
#PBS -V
#PBS -l nodes=1:ppn=1
#PBS -q batch
#PBS -j eo
cd /mnt/folder
mpiexec -f machinefile ./cpi2>>salida1_1.o
prueba01
#!/bin/bash
#PBS -N pruebaF
#PBS -V
#PBS -l nodes=1:ppn=1
#PBS -q batch
#PBS -j eo
cd /mnt/folder
mpiexec -f machinefile ./cpi2>>salida01.o
Файл машинного файла содержит 2 узла slave02 и slave03 каждый с 1 процессором.
Хотя я указываю, что в каждом файле pbs должно использоваться только 1 узел и 1 процессор на одно задание (с #PBS -l вершинами =1:ppn=1), выходные файлы, похоже, показывают, что каждое задание использует оба узла одновременно. Мне интересно, почему, поскольку эти pbsfiles должны использовать только один узел и 1 процессор, для меня должно быть, что prueba1_1 должен использовать slave02 с 1 процессором, а prueba01 должен использовать slave02, но с другим процессором.
выходные файлы здесь
salida1_1.o
Process 0 of 2 is on slave02
Process 1 of 2 is on slave03
pi is approximately 3.1415926535900915, Error is 0.0000000000002984
wall clock time = 14.937282
salida01.o
Process 0 of 2 is on slave02
Process 1 of 2 is on slave03
pi is approximately 3.1415926535900915, Error is 0.0000000000002984
wall clock time = 14.741892
1 ответ
Я бы изменил машинный файл на $PBS_NODEFILE. Когда Torque/PBS назначает узлы вашей работе, он создает файл, содержащий список этих узлов, и устанавливает путь к этому файлу в переменной PBS_NODEFILE. Я предполагаю, что machinefile был создан для тестирования, и так как он не создается и не обновляется Torque, поэтому ваши задания всегда выполняются одинаково.