Конвейер ML для потока данных и поддержка DataflowPythonJobOp пользовательских контейнеров докеров?
Я использую клиентские Docker-контейнеры для запуска заданий потока данных. Я хочу связать это с моей работой по обучению tpu и т. д., поэтому я рассматриваю возможность запуска конвейера kubeflow на вершине ai. Это разумная идея? (Кажется, существует много альтернатив, таких как воздушный поток и т. д.)
В частности, должен ли я использовать DataflowPythonJobOp в конвейере? Похоже, он не поддерживает пользовательские рабочие образы. Я предполагаю, что у меня может быть только одна небольшая машина, которая запускает конвейер потока данных и простаивает (помимо записи некоторых журналов) до тех пор, пока конвейер потока данных не завершится?
1 ответ
Пытались ли вы передать аргументы пользовательского контейнера с помощью https://google-cloud-pipeline-compents.readthedocs.io/en/google-cloud-pipeline-compents-2.0.0/api/v1/dataflow.html#v1.dataflow.DataflowPythonJobOp.args?