Распределенный Tensorflow: PS / рабочие хосты на AWS?
Я использую распределенный Tensorflow на AWS с помощью gpus. Когда я обучаю модель на своей локальной машине, я указываю ps_host/worker_host как что-то вроде 'localhost:2225'. Какой хост ps/worker мне нужно использовать в случае с aws?
1 ответ
Вот хороший проект GitHub, показывающий, как использовать Distributed TensorFlow в AWS с Kubernetes или новым AWS SageMaker: https://github.com/pipelineai/pipeline
как минимум, вы должны использовать API TensorFlow Estimator. В Distributed TensorFlow есть множество скрытых, не очень хорошо документированных приемов.
Вот некоторые из лучших примеров: https://github.com/GoogleCloudPlatform/cloudml-samples/tree/master/census
Когда распределенный код TF выполняется в кластере, другие узлы могут быть доступны через "private ip: port number
".
Но проблема с AWS заключается в том, что другие узлы не могут быть легко запущены и требуют дополнительной настройки.