Распределенное выполнение в активном режиме с использованием tenorflow

Согласно недавно опубликованному техническому документу и RFC на GitHub, tenorflow eager в настоящее время поддерживает распределенное выполнение. Упоминается, что аналогично графическому режиму мы можем активно запускать операцию на удаленном устройстве, указав имя устройства, например, "/job:training/task:2/device:GPU:0". Однако я не могу найти примеры кода или учебники о том, как это сделать.

Я отмечаю, что существует множество руководств по tf.distribute, высокоуровневому API для распределенного обучения, который поддерживает как график, так и активный режим. Однако меня больше интересует, как tf.distribute работает под капотом для активного режима. В частности, я хотел бы знать:

  1. Как подключить клиента к удаленному серверу в режиме ожидания?

  2. Когда и как определяется определение кластера в активном режиме?

Буду признателен, если кто-нибудь сможет дать ответы на эти вопросы. Спасибо!

0 ответов

Другие вопросы по тегам