Запуск обнаружения объекта TF model_tpu_main.py на TPU

Является tensorflow/models/research/object_detection/model_tpu_main.py не предназначен для запуска в то время как sshed в самом TPU? У меня есть предыдущий опыт работы model_main.py непосредственно с компьютера с графическим процессором AWS, на котором я хочу работать, но model_tpu_main.py Кажется, я хочу передать флаги информации о кластере TPU, и я не могу их игнорировать, даже если я уже подключен к машине TPU.

Я не могу найти какую-либо документацию для этого, так что, может, кто-нибудь объяснит, как это должно выполняться?

Например я пробовал:

python /home/<username>/training/model_tpu_main.py \
    --gcp_project=<project_id> \
    --tpu_zone=us-central1-b \
    --tpu_name=<tpu_name> \
    --pipeline_config_path=/home/<username>/training/ssd_resnet50_v1_fpn_shared_box_predictor_640x640_coco14_sync.config \
    --model_dir=/home/<username>/training/models \
    --mode=train_and_eval \
    --train_batch_size=64 \
    --eval_training_data=True \
    --num_train_steps=50000 \
    --sample_1_of_n_eval_examples=1 \
    --sample_1_of_n_eval_on_train_examples=5 \
    --logtostderr=true

Но я получаю ошибки gcloud. Я не понимаю, почему мне нужно беспокоиться об аутентификации gcloud, если я уже зашел в систему..

Теперь кажется, что, возможно, я должен установить API обнаружения объектов на отдельном компьютере с Linux, но затем отправить учебное задание в ТПУ, а не запускать его там напрямую? Может ли кто-то подтвердить / опровергнуть это дело?

0 ответов

Другие вопросы по тегам