Что произойдет, если один из рабочих умрет в распределении тензорного потока?

Я развернул распределенный кластер тензорного потока для обучения системы Deep Neural Network, но в процессе обучения один из работников вышел из строя по неизвестной причине (может быть, из-за плохой сети), в то время как другие работники все еще обучали данные, их обучение не проходило. не останавливайся и продолжай идти дальше. И после того, как я перезапустил сломанного работника, узел ps мог отправлять данные сломанному работнику, сломанный работник также мог тренировать данные с другими работниками, но случилось удивительное: успехи обучения хороших работников были установлены на ноль, и они начали переучить данные с разбитым рабочим узлом. Так что все мои предыдущие успехи в обучении пропали... То есть процесс тарификации возобновился. Кто-нибудь знает, как решить эту проблему?

Моя версия tenorflow: 0.10.0

Заранее спасибо!

0 ответов

Другие вопросы по тегам