Ошибка RPC со статусом = "Недоступно: сокет закрыт" Ошибка при обучении FairSeq RoBERTa в Cloud TPU с использованием PyTorch

Я следил за обучающими материалами " Предварительное обучение FairSeq RoBERTa на Cloud TPU с использованием Pytorch", чтобы настроить Preemptible (v2-8) env TPU и обучить мою модель RoBERTa. Env PyTorch основан на torch-xla-1.6, как указано в документе. Однако он не выводит журнал обучения, как обычно, в графическом процессоре, и выдает предупреждение о сбое RPC (см. Ниже - конечная точка сети здесь удалена) дважды за 2-3 дня (за 12 часов).

Мои тренировочные шаги за эпоху - 161529. Согласно документу, v2-8 займет 80 часов в течение 5 эпох, как я настроил. Однако, похоже, моя работа там висит.

Какой-нибудь совет, пожалуйста?

 W    4566 tensorflow/core/distributed_runtime/rpc/grpc_remote_master.cc:160] RPC failed with status = "Unavailable: Socket closed" and grpc_error_string = "{"created":"@1599580717.037250202","description":"Error received from peer ipv4:<my_network_endpoint>:8470","file":"external/com_github_grpc_grpc/src/core/lib/surface/call.cc","file_line":1056,"grpc_message":"Socket closed","grpc_status":14}", maybe retrying the RPC

1 ответ

Похоже, в этом случае ваш TPU мог быть вытеснен. Пожалуйста, попробуйте использовать невытесняемый TPU.

Другие вопросы по тегам