Распределенное обучение с использованием нескольких графических процессоров с tenorflow.slim.learning

Я понимаю, что TensorFlow поддерживает распределенное обучение.

я нахожу num_clones в train_image_classifier.py так что я могу использовать несколько графических процессоров локально.

python $TF_MODEL_HOME/slim/train_image_classifier.py \
--num_clones=2
--train_dir=${TRAIN_DIR} \
--dataset_name=imagenet \
--dataset_split_name=train \
--dataset_dir=${DATASET_DIR} \
--model_name=vgg_19 \
--batch_size=32 \
--max_number_of_steps=100

Как использовать несколько графических процессоров на разных хостах?

1 ответ

Вам нужно использовать --worker_replicas=<no of hosts> тренироваться на нескольких хостах с одинаковым количеством графических процессоров. Кроме того, вы должны настроить --task, --num_ps_tasks, --sync_replicas, --replicas_to_aggregate если вы тренируетесь на нескольких хостах.

Я бы посоветовал вам попробовать Хоровод. Я планирую попробовать через пару дней.

Другие вопросы по тегам