TFX Evaluator не работает в потоке данных, поэтому он не работает из-за нехватки памяти для модуля.

Я запускаю конвейер в конвейерах платформы AI на основе TFX. Все компоненты работают нормально до Evaluator. Он просто не хочет запускаться в Dataflow, он работает в модуле Kubeflo, поэтому он терпит неудачу, поскольку там недостаточно памяти.

Конфигурация Apache Beam настроена для работы с Dataflow в качестве бегуна, поэтому другие компоненты, такие как ExampleGen, StatisticsGen, ExampleValidator, отлично работают с Dataflow.

Когда дело доходит до компонента Evaluator, он просто выходит из строя, даже не создавая журнала. Жалобы на ошибку (в пользовательском интерфейсе Kubeflow):

«Этот шаг находится в состоянии Failed с этим сообщением: Узлу не хватает ресурса: памяти. Основной контейнер использовал 2093880Ki, что превышает его запрос 0. Ожидание контейнера использовало 13492Ki, что превышает его запрос 0».

1 ответ

Мне удалось решить эту проблему, установив версию TFX на 0.25.0.