Конвейеры платформы AI иногда и случайным образом выходят из строя
Я использую AI Platform Pipelines (v0.2.5) несколько месяцев. Я перестроил экземпляр Pipelines, потому что нашел более новую версию (v0.5.1) на консоли. Сейчас я застрял в завершении конвейеров.
Это очень странно, потому что, похоже, не существует шаблонов отказов.
- Стручки (компоненты) случайно выходят из строя. Большинство модулей успешно завершаются, а некоторые терпят неудачу. Кроме того, количество отказавших модулей зависит от времени выполнения.
- Поды случайным образом сообщают мне сообщения об ошибках двух нижеприведенных.
google.auth.exceptions.DefaultCredentialsError: Could not automatically determine credentials.
Please set GOOGLE_APPLICATION_CREDENTIALS or explicitly create credentials and re-run the application.
For more information, please see https://cloud.google.com/docs/authentication/getting-started
- Файл "", строка 3, в raise_from google.auth.exceptions.RefreshError: ("Не удалось получить http://metadata.google.internal/computeMetadata/v1/instance/service-accounts/default/?recursive=true из Служба метаданных Google Compute Engine. Статус: 500 Ответ:\nb'Не удалось рекурсивно получить uri \n' ",
)
В GKE Cluster Workload Identity устанавливается. Я обязательно подтверждаю процедуру, и с настройкой проблем нет. Хотя некоторые модули терпят неудачу, другие модули успешно работают с Workload Identity. Конечно, включен Google Cloud Credentials API.
Я не знаю, что эти проблемы вызваны обновлением экземпляра Pipelines.
Есть идеи?