Как развернуть N независимых обучающих заданий Python / PyTorch в N облачных экземплярах GPU?
У меня есть N независимых python tasks/scrips/functionCalls, которые я хотел бы отправить в N google cloud gpu instance, чтобы они могли работать параллельно, но там так много информации (шума), что я не знаю, с чего начать, В частности, мне нужно обучить N глубоких нейронных сетей в облаке, тестировать различные конфигурации гиперпараметров, используя PyTorch. Я не уверен, должен ли я использовать что-то вроде KubeFlow или...? Примеры, которые я нашел для KubeFlow, больше похожи на то, как для распределенного обучения / вывода в отдельных сетях, а не на независимые задачи
Я предполагаю, что мне нужно иметь dockerimage, который описывает мою настройку, но кроме этого, я не знаю, как это сделать.
Код psuedo ниже суммирует то, что я пытаюсь сделать. Я хотел бы отправить несколько независимых заданий нескольким независимым экземплярам облака и получить данные, которые они создают.
Любая помощь будет принята с благодарностью!
for jobConfig in Configs:
SubmitTrainingJob(MyFunction,args = jobConfig)