Как восстановить / повторно отправить зависшие задания SGE (Использование qsub?)
Я пытаюсь восстановить / повторно отправить зависшие задания (которые выполняются в планировщике SGE) из-за сбоя узла или, скажем, спотовые экземпляры AWS были удалены? Может ли кто-нибудь помочь в возобновлении таких работ? Я пытался понять использованиеqsub
но не может настроить что-то, что будет автоматически повторно отправлять такие задания.
Также невозможно настроить мою очередь с помощью qconf
команда как только root
& sge_admin
пользователи могут запускать эту команду, у меня есть root
-privileges, но просит меня установить SGE_ROOT
переменная окружения, которую я сделал, но все еще выдает ошибку при установке переменной.
Мы будем очень благодарны за любую помощь.
1 ответ
На справочной странице qsub:
-r y[es]|n[o]
Available for qsub and qalter only.
Identifies the ability of a job to be rerun or not.
If the value of -r is 'yes', the job will be rerun if the job was
aborted without leaving a consistent exit state.
(This is typically the case if the node on which the job is running
crashes). If -r is 'no', the job will not be rerun under any circumstances.
Interactive jobs submitted with qsh, qrsh or qlogin are not rerunnable.
Qalter allows changing this option even while the job executes.
Итак, добавление
#$ -r y
в вашем сценарии работы это должно учитываться.