Распределенное обучение с использованием нескольких графических процессоров с tenorflow.slim.learning
Я понимаю, что TensorFlow поддерживает распределенное обучение.
я нахожу num_clones
в train_image_classifier.py
так что я могу использовать несколько графических процессоров локально.
python $TF_MODEL_HOME/slim/train_image_classifier.py \
--num_clones=2
--train_dir=${TRAIN_DIR} \
--dataset_name=imagenet \
--dataset_split_name=train \
--dataset_dir=${DATASET_DIR} \
--model_name=vgg_19 \
--batch_size=32 \
--max_number_of_steps=100
Как использовать несколько графических процессоров на разных хостах?
1 ответ
Вам нужно использовать --worker_replicas=<no of hosts>
тренироваться на нескольких хостах с одинаковым количеством графических процессоров. Кроме того, вы должны настроить --task
, --num_ps_tasks
, --sync_replicas
, --replicas_to_aggregate
если вы тренируетесь на нескольких хостах.
Я бы посоветовал вам попробовать Хоровод. Я планирую попробовать через пару дней.