TFX Pipeline перестал работать из-за зависания рабочих заданий Dataflow при запуске

У меня есть конвейер TFX, работающий в конвейерах платформы GCP AI (управляемый Kubeflow). Некоторое время он работал нормально, но внезапно перестал работать должным образом на этапе BigQuery ExampleGen.

BQ ExampleGen использует поток данных для чтения данных из BQ и сохранения в TRecords. Задание Dataflow запускается, но ничего не делает - оно зависает во время запуска / подготовки воркера.

Журнал работника показывает, что зависимости python устанавливаются с помощью pip. Проблема в том, что pip постоянно загружает разные версии одного и того же пакета для разрешения конфликтов зависимостей, но не показывает, в чем заключается конфликт. Я подключился к рабочей виртуальной машине во время ее запуска, а не показывал, что pip постоянно работает и потребляет 100% ЦП - он не заканчивался более часа, я ждал, прежде чем просто остановить задание.

Версия TFX: 0.26.3 (связана с 0.26.4 с тем же результатом) Apache Beam SDL: 2.28 (пробовал с 2.29 с тем же результатом)

Я даже попытался выполнить pip-установку TFX 0.26.3 в образе докера Apache Beam (тот же, который используется рабочими Dataflow), и он также застрял при попытке его установить.

Я попытался установить TFX 0.30.0 в образ докера Apache Beam, и он установился нормально, но я не могу использовать TFX 0.30 в своем конвейере AI Platform, поскольку, похоже, поддерживается только TFX 0.26.

Кто-нибудь еще столкнулся с такой же проблемой и, возможно, решил проблему?

1 ответ

Я наконец решил проблему, установив версию контейнера TFX на 0.26.1 вместо 0.26.3, как это было по умолчанию из шаблона TFX.

Другие вопросы по тегам