Как исправить: horovod.run.common.util.network.NoValidAddressesFound
Я пытаюсь сделать распределенное обучение с помощью 2 док-станции NVIDIA. Когда я попробовал с 2 хостами, это не сработало. Как мне решить эту проблему?
Я попробовал эту команду:
horovodrun -np 3 -H localhost:1 -p 12345 python keras_mnist_advanced.py
Это сработало, но когда я попробовал:
horovodrun -np 3 -H localhost:1,192.168.0.20:2 -p 12345 python keras_mnist_advanced.py
Я получил эту ошибку:
Не удалось запустить функцию задачи horovodrun: horovod.run.common.util.network.NoValidAddressesFound: Невозможно подключиться к службе задачи horovodrun #1 по любому из адресов:{'lo': [('127.0.0.1', 30871)], 'docker0': [('172.17.0.1', 30871)], 'enp0s31f6': [('192.168.0.20', 30871)]}
1 ответ
Пожалуйста, посмотрите на эти вопросы, поднятые в хранилище: