Можно ли изменить или добавить слой к планированию SLURM
Я неоплачиваемый пользователь в вычислительном кластере, который использует SLURM.
Время от времени у меня было много продолжительных и многократных заданий, которые засоряли платформу для платных пользователей. Из-за этого у меня были отменены работы администратора. В настоящее время у меня есть ограничение на количество доступных мне узлов. Хотя я не спорю с справедливостью этого соглашения, для меня это проблема с точки зрения выполнения работы, особенно потому, что я вижу свободные узлы, которые не выполняют никаких заданий, в то время как я просто жду, когда задания пройдут через верхний предел узла....
С этим как справочная информация, вот мои два вопроса:
Разве администратор не может приостановить, а затем возобновить работу - или работу, или все работы пользователя, или набор работ? Это приостановить / возобновить обременительно с точки зрения администратора?
Я полагаю, что должна быть возможность создать список платящих и не платящих пользователей. А при оплате имя пользователя отправляет с sbatch, чтобы автоматически дать SLURM команду приостановить работу или работу неоплачиваемого имени пользователя, и возобновить работу после завершения работы платного пользователя. Это вообще возможно? Если да, это выходит за рамки навыков обычных администраторов SLURM / Farm?
Может ли кто-нибудь предложить какие-либо другие решения (если то, что я спросил выше, является необоснованным или абсурдным)?
Спасибо!
1 ответ
Админ может работать
scontrol suspend jobid
а потомscontrol resume jobid
Ключевыми словами здесь являются " QOS" и " preemption". Как правило, QOS создается для платящих пользователей, которые имеют преимущественные права по сравнению с обычным QOS. Задания неоплачиваемых пользователей могут быть отменены, проверены, отложены или приостановлены.