Соединение RSH отклонено во время работы программы MPI
Я пытаюсь запустить программы MPI на 8 машинах, но я получаю ошибку
connect to address 127.0.0.1 port 544: Connection refused
Trying krb4 rsh...
connect to address 127.0.0.1 port 544: Connection refused
trying normal rsh (/usr/bin/rsh)
lagrid02: Connection refused
Когда я запускаю его с опцией machinefile, я получаю сообщение об ошибке lagrid03: No route to host
где lagrid03 - соседний узел, связанный с главным узлом.
Как я должен исправить это?
2 ответа
Что касается вашей первой ошибки, rsh работает на (всех) машинах? Вам нужно будет настроить ssh по протоколу rsh или без пароля (и попросить программу запуска заданий mpi использовать ssh), прежде чем вы сможете запускать задания на разных машинах.
Вторая ошибка указывает на то, что нет доступа к машине lagrid03 с текущей конфигурацией сети. Я предполагаю, что у вас есть запись /etc/hosts с IP-адресами для lagrid03, но в этой сети не настроен интерфейс. Для более подробного ответа вам необходимо опубликовать информацию о конфигурации вашей сети.
Проблема с аутентификацией, если вы идете в /etc/pam.d/rsh
поместите файл и переместите rlogin и rsh наверх и сделайте так, чтобы он работал нормально.
/* For root login to succeed here with pam_securetty, "rsh" must be listed in /etc/securetty.*/
auth required pam_nologin.so
auth required pam_securetty.so
auth required pam_env.so
auth required pam_rhosts_auth.so
account include system-auth
session optional pam_keyinit.so force revoke
session include system-auth