Конвейеры платформы AI иногда и случайным образом выходят из строя

Я использую AI Platform Pipelines (v0.2.5) несколько месяцев. Я перестроил экземпляр Pipelines, потому что нашел более новую версию (v0.5.1) на консоли. Сейчас я застрял в завершении конвейеров.

Это очень странно, потому что, похоже, не существует шаблонов отказов.

  • Стручки (компоненты) случайно выходят из строя. Большинство модулей успешно завершаются, а некоторые терпят неудачу. Кроме того, количество отказавших модулей зависит от времени выполнения.
  • Поды случайным образом сообщают мне сообщения об ошибках двух нижеприведенных.
google.auth.exceptions.DefaultCredentialsError: Could not automatically determine credentials. 
Please set GOOGLE_APPLICATION_CREDENTIALS or explicitly create credentials and re-run the application. 
For more information, please see https://cloud.google.com/docs/authentication/getting-started
  1. Файл "", строка 3, в raise_from google.auth.exceptions.RefreshError: ("Не удалось получить http://metadata.google.internal/computeMetadata/v1/instance/service-accounts/default/?recursive=true из Служба метаданных Google Compute Engine. Статус: 500 Ответ:\nb'Не удалось рекурсивно получить uri \n' ", )

В GKE Cluster Workload Identity устанавливается. Я обязательно подтверждаю процедуру, и с настройкой проблем нет. Хотя некоторые модули терпят неудачу, другие модули успешно работают с Workload Identity. Конечно, включен Google Cloud Credentials API.

Я не знаю, что эти проблемы вызваны обновлением экземпляра Pipelines.

Есть идеи?

0 ответов