Крутящий момент не может общаться с хостом

Я пытался настроить планировщик крутящего момента для небольшого кластера. Я следовал инструкциям по настройке планировщика с http://docs.adaptivecomputing.com/torque/archive/3-0-2/1.2configuring_torque_on_server.php

Однако, когда я пытаюсь

qterm -t quick

Я получаю следующую ошибку

$ sudo qterm -t quick
Unable to communicate with Terra(192.168.1.25)
Cannot connect to specified server host 'Terra'.
qterm: could not connect to server '' (111) Connection refused 

но сервер запускается просто отлично. Однако, когда я пытаюсь запустить команду, которая выполняется на нескольких узлах, таких как

qsub -l nodes=2:ppn=4 /home/user/scripts/someScript

он печатает что-то вроде

7.Terra

где Terra - имя головного узла, но также является узлом в кластере. Это не проблема. Проблема в том, что он не запускается. и при этом нигде не выводится: /

Журнал сервера крутящего момента: https://ptpb.pw/EaKo

Журнал Terra узла: https://ptpb.pw/9w5M

и журнал Marte: https://ptpb.pw/o4PT

Я могу заставить его работать с помощью сценария PBS, но только с одним узлом....

#!/bin/bash
#PBS -l pmem=1gb,nodes=1:ppn=4
#PBS -m abe
cd Documents/
wc -l largeTest.csv

Вот результат qstat после подачи работы

Job ID                    Name             User            Time Use S 
Queue
------------------------- ---------------- --------------- -------- - -----
16.Terra                   testPerformance  justin                 0 R batch      

вывод pbsnodes -a

Terra
 state = free
 power_state = Running
 np = 4
 properties = Tower
 ntype = cluster
 status = opsys=linux,uname=Linux Terra 4.17.14-arch1-1-ARCH #1 SMP PREEMPT Thu Aug 9 11:56:50 UTC 2018 x86_64,sessions=11525 22029,nsessions=2,nusers=1,idletime=57964,totmem=8111556kb,availmem=7539284kb,physmem=8111556kb,ncpus=4,loadave=0.00,gres=,netload=30570521372,state=free,varattr= ,cpuclock=Fixed,macaddr=e0:3f:49:44:72:20,version=6.1.1.1,rectime=1534937388,jobs=
 mom_service_port = 15002
 mom_manager_port = 15003
 gpus = 1

Marte
 state = free
 power_state = Running
 np = 4
 properties = NFSServer
 ntype = cluster
 status = opsys=linux,uname=Linux Marte 4.18.1-arch1-1-ARCH #1 SMP PREEMPT Wed Aug 15 21:11:55 UTC 2018 x86_64,sessions=366 556 563,nsessions=3,nusers=2,idletime=58140,totmem=7043404kb,availmem=6703808kb,physmem=7043404kb,ncpus=4,loadave=0.02,gres=,netload=36500663511,state=free,varattr= ,cpuclock=Fixed,macaddr=c8:5b:76:4a:65:91,version=6.1.1.1,rectime=1534937359,jobs=
 mom_service_port = 15002
 mom_manager_port = 15003

и / var / золотник / крутящий момент /server_priv/ узлы

Terra np=4 gpus=1 Tower
Marte np=4 NFSServer

Изменить: вот самые последние журналы, а также

Mom Log для узла: https://ptpb.pw/DhKi

Mom Log для головного узла: https://ptpb.pw/MTlD

и журнал сервера: https://ptpb.pw/HPkE

0 ответов

Другие вопросы по тегам