Распределенный Tensorflow: PS / рабочие хосты на AWS?

Я использую распределенный Tensorflow на AWS с помощью gpus. Когда я обучаю модель на своей локальной машине, я указываю ps_host/worker_host как что-то вроде 'localhost:2225'. Какой хост ps/worker мне нужно использовать в случае с aws?

1 ответ

Вот хороший проект GitHub, показывающий, как использовать Distributed TensorFlow в AWS с Kubernetes или новым AWS SageMaker: https://github.com/pipelineai/pipeline

как минимум, вы должны использовать API TensorFlow Estimator. В Distributed TensorFlow есть множество скрытых, не очень хорошо документированных приемов.

Вот некоторые из лучших примеров: https://github.com/GoogleCloudPlatform/cloudml-samples/tree/master/census

Когда распределенный код TF выполняется в кластере, другие узлы могут быть доступны через "private ip: port number".

Но проблема с AWS заключается в том, что другие узлы не могут быть легко запущены и требуют дополнительной настройки.

Другие вопросы по тегам