Распределенный Tensorflow: PS / рабочие хосты на AWS?

Question

Распределенный Tensorflow: PS / рабочие хосты на AWS?

Я использую распределенный Tensorflow на AWS с помощью gpus. Когда я обучаю модель на своей локальной машине, я указываю ps_host/worker_host как что-то вроде 'localhost:2225'. Какой хост ps/worker мне нужно использовать в случае с aws?

4

python tensorflow tensorflow-gpu

Источник

user7496670 14 дек '17 в 01:56

1 ответ

Другие вопросы по тегам python tensorflow tensorflow-gpu

user656810 16 дек '17 в 17:53 2017-12-16 17:53 · Answer 1 · 2017-12-16 17:53

Вот хороший проект GitHub, показывающий, как использовать Distributed TensorFlow в AWS с Kubernetes или новым AWS SageMaker: https://github.com/pipelineai/pipeline

как минимум, вы должны использовать API TensorFlow Estimator. В Distributed TensorFlow есть множество скрытых, не очень хорошо документированных приемов.

Вот некоторые из лучших примеров: https://github.com/GoogleCloudPlatform/cloudml-samples/tree/master/census

user10854860 19 фев '19 в 03:11 2019-02-19 03:11 · Answer 2 · 2019-02-19 03:11

Когда распределенный код TF выполняется в кластере, другие узлы могут быть доступны через "private ip: port number".

Но проблема с AWS заключается в том, что другие узлы не могут быть легко запущены и требуют дополнительной настройки.

0

Источник

user10854860 19 фев '19 в 03:11