ParameterServer и Worker блокируются, даже если координатор начинает планировать задачи
Я реализую простое распределенное обучающее приложение, используя ParameterServerStrategy из Tensorflow v2.4.1, следуя официальным инструкциям из tf.distribute.experimental.ParameterServerStrategy.
Я распределил обучение по трем разным машинам. Запустив приложение, один PS, один координатор и один работник будут запускать один и тот же фрагмент кода на разных машинах. Фрагмент кода можно найти в моем gist . Однако координатор не может успешно распределить вычислительную работу между ps и рабочими процессами. Не могли бы вы помочь мне решить эту проблему?
Журналы ps, worker и координатора можно найти в основных комментариях.