Slurm and Munge "Неверное удостоверение личности"

Я устанавливаю slurm впервые. Я установил tarball 19.05.1-2 и использовал конфигуратор, чтобы создать очень простой кластер из двух узлов. Управляющим узлом является sdc, вычислительными узлами (запущенными slurmd) являются sdc и sdc1. Оба перестроены с Ubuntu 18.04

Я могу запустить контроллер и вычислительный узел sdc, а также успешно отправить задания с помощью srun. Замечательно. Однако, когда я запускаю slurmd на втором узле, SDC1, я получаю:

slurmd: error: Unable to register: Zero Bytes were transmitted or received

Это быстро привело меня к моей конфигурации Munge. Munge.log на контроллере (sdc) показывает "Неверные учетные данные" каждую секунду. Я трижды проверил, что munge.key на обоих хостах идентичны. Я проверил, что ntp тоже работает.

Так что вручную я сделал munge -s foobar | unmunge на SDC1 и, конечно, это работало локально. Затем я сохранил ложный текст из SDC1 в файл на SDC и попытался unmunge. Это снова дало мне ошибку "Неверные учетные данные".

Из-за этого я удалил и переустановил Munge в обеих системах, раздал ключ и повторил этот тест с тем же результатом.

Я предполагаю, что упускаю что-то простое. Я не знаю, что еще нужно сделать, чтобы правильно установить Munge.

2 ответа

Это было несоответствие UID/GID между узлами. Конечно, это упоминается в руководстве по установке.

Вы не забыли перезапустить демон munge после копирования munge.key в /etc/munge? Я получил ту же ошибку, делая

1: установить слёрм:

      $ apt install -y slurm-client

2: скопируйте slurm.conf(возможно, заранее создайте slurm-llnl):

      $ cp slurm.conf /etc/slurm-llnl 

3: скопировать ключ munge на клиент (ранее munge.key скопирован с сервера slurm/slurmctld)

      $ cp munge.key /etc/munge

а затем я получил все недопустимые ошибки учетных данных и проблемы, о которых сообщалось здесь и в отчетах, включая ошибку «Ноль байтов» на стороне клиента.


с соответствующими записями в журналах Slurm SERVER/slurmctld аля

      [SERVER]$ tail /var/log/munge/munged.log 
2022-12-30 22:57:23 +0100 Notice:    Running on .. 
2022-12-30 23:01:11 +0100 Info:      Invalid credential ...

и

      [SERVER]$ tail /var/log/slurm-llnl/slurmctld.log 
[2022-12-30T23:01:11.440] error: Munge decode failed: Invalid credential
[2022-12-30T23:01:11.440] ENCODED: Thu Jan 01 01:00:00 1970
[2022-12-30T23:01:11.440] DECODED: Thu Jan 01 01:00:00 1970
[2022-12-30T23:01:11.440] error: slurm_unpack_received_msg: REQUEST_PARTITION_INFO has authentication error: Invalid authentication credential
[2022-12-30T23:01:11.440] error: slurm_unpack_received_msg: Protocol authentication error

Все это исправляется перезагрузкой клиента, как это было предложено другим здесь, или чуть менее навязчивым, просто для перезапуска клиентского демона munge.

      (CLIENT)$ sudo systemctl restert  munge.service

а затем munge на клиенте / unmunge на сервере работает, но это также устраняет мою основную проблему, заключающуюся в том, что клиент видит сервер slurm без страшной ошибки «Ноль байтов».

      [CLIENT]$ sinfo 
slurm_load_partitions: Zero Bytes were transmitted or received

с записями журнала сервера

      [SERVER]$ tail /var/log/slurm-llnl/slurmctld.log 
...
[2022-12-30T23:17:14.017] error: slurm_unpack_received_msg: Invalid Protocol Version 9472 from uid=-1 at XX.XX.XX.XX:44150
[2022-12-30T23:17:14.017] error: slurm_unpack_received_msg: Incompatible versions of client and server code
[2022-12-30T23:17:14.027] error: slurm_receive_msg [XX.XX.XX.XX:44150]: Unspecified error

И, после перезапуска munge, вуаля:

      [CLIENT] $ sinfo
PARTITION AVAIL  TIMELIMIT  NODES  STATE NODELIST
LocalQ*      up   infinite      1   idle XXX

для примеров: СЕРВЕР Ubuntu 20.04, КЛИЕНТЫ Ubuntu 20.04 (и 22.04, которые кажутся несовместимыми с версией SERVERslurm, говорится в журнале)

Другие вопросы по тегам