Как запустить Tensorflow на кластере SLURM с правильно настроенным сервером параметров?
Мне повезло, что у меня есть доступ к кластеру GPU моего университета, работающему на платформе SLURM. Я пытался заставить Tensorflow работать на узле кластера, но до сих пор мне не удалось найти какую-либо документацию. (Все, с кем я говорил в университете, запускали его, используя узлы ЦП ранее или используя один узел ГП.
Я нашел отличную часть документации из этого предыдущего вопроса здесь. К сожалению, это довольно неполно. Все остальные распространенные примеры, которые я нашел, такие как этот, основаны на явном указании сервера параметров.
Когда я пытаюсь запустить его, используя код из SO-вопроса, мне кажется, что он работает идеально, пока он либо не сможет подключиться к несуществующему серверу параметров, либо не зависнет при вызове server.join и не предоставит распечатки для выходного файла sbatch (который Я так понимаю должно получиться).
Короче говоря, мой вопрос: как можно запустить Tensorflow в кластере SLURM? Начиная с этапа sbatch. Я впервые имею дело с платформой распределенных вычислений, кроме SPARK в AWS, и мне хотелось бы узнать больше о том, как правильно настроить Tensorflow. Как мне указать, какой из элементов в tf_hostlist, например, сервер, в качестве сервера параметров? В качестве альтернативы я могу использовать sbatch для отправки немного разных команд каждому работнику, как я видел в других примерах?