Запуск обнаружения объекта TF model_tpu_main.py на TPU
Является tensorflow/models/research/object_detection/model_tpu_main.py
не предназначен для запуска в то время как sshed в самом TPU? У меня есть предыдущий опыт работы model_main.py
непосредственно с компьютера с графическим процессором AWS, на котором я хочу работать, но model_tpu_main.py
Кажется, я хочу передать флаги информации о кластере TPU, и я не могу их игнорировать, даже если я уже подключен к машине TPU.
Я не могу найти какую-либо документацию для этого, так что, может, кто-нибудь объяснит, как это должно выполняться?
Например я пробовал:
python /home/<username>/training/model_tpu_main.py \
--gcp_project=<project_id> \
--tpu_zone=us-central1-b \
--tpu_name=<tpu_name> \
--pipeline_config_path=/home/<username>/training/ssd_resnet50_v1_fpn_shared_box_predictor_640x640_coco14_sync.config \
--model_dir=/home/<username>/training/models \
--mode=train_and_eval \
--train_batch_size=64 \
--eval_training_data=True \
--num_train_steps=50000 \
--sample_1_of_n_eval_examples=1 \
--sample_1_of_n_eval_on_train_examples=5 \
--logtostderr=true
Но я получаю ошибки gcloud. Я не понимаю, почему мне нужно беспокоиться об аутентификации gcloud, если я уже зашел в систему..
Теперь кажется, что, возможно, я должен установить API обнаружения объектов на отдельном компьютере с Linux, но затем отправить учебное задание в ТПУ, а не запускать его там напрямую? Может ли кто-то подтвердить / опровергнуть это дело?