ParameterServer и Worker блокируются, даже если координатор начинает планировать задачи

Я реализую простое распределенное обучающее приложение, используя ParameterServerStrategy из Tensorflow v2.4.1, следуя официальным инструкциям из tf.distribute.experimental.ParameterServerStrategy.

Я распределил обучение по трем разным машинам. Запустив приложение, один PS, один координатор и один работник будут запускать один и тот же фрагмент кода на разных машинах. Фрагмент кода можно найти в моем gist . Однако координатор не может успешно распределить вычислительную работу между ps и рабочими процессами. Не могли бы вы помочь мне решить эту проблему?

Журналы ps, worker и координатора можно найти в основных комментариях.

0 ответов

Другие вопросы по тегам