Запуск распределенного тензорного потока в синхронном SGD(BSP)

Question

Запуск распределенного тензорного потока в синхронном SGD(BSP)

Я пытаюсь изменить код "cifar10_multi_gpu_train.py" в https://github.com/tensorflow/models/tree/master/tutorials/image/cifar10 для распределенного способа, чтобы я мог запустить его в кластере процессора. Я использую 2 рабочих и 1 пс в механизме BSP. Но результаты двух рабочих, похоже, не являются синхронными. Worker 1 не начал выполняться, пока Worker 0 уже не выполнил глобальный шаг 1 3 раза, а глобальный шаг 2 2 раза. Есть ли кто-нибудь, кто может помочь мне ответить на странное явление. Должны ли оба работника иметь одинаковые глобальные шаги в механизме BSP.

Результат работника 0:

Результат работника 1:

0

tensorflow bsp

Источник

user8578114 07 сен '18 в 06:23

0 ответов

Другие вопросы по тегам tensorflow bsp