Как восстановить / повторно отправить зависшие задания SGE (Использование qsub?)

Я пытаюсь восстановить / повторно отправить зависшие задания (которые выполняются в планировщике SGE) из-за сбоя узла или, скажем, спотовые экземпляры AWS были удалены? Может ли кто-нибудь помочь в возобновлении таких работ? Я пытался понять использованиеqsub но не может настроить что-то, что будет автоматически повторно отправлять такие задания.

Также невозможно настроить мою очередь с помощью qconf команда как только root & sge_admin пользователи могут запускать эту команду, у меня есть root-privileges, но просит меня установить SGE_ROOT переменная окружения, которую я сделал, но все еще выдает ошибку при установке переменной.

Мы будем очень благодарны за любую помощь.

1 ответ

На справочной странице qsub:

        -r y[es]|n[o]
       Available for qsub and qalter only.

       Identifies the ability of a job to be rerun or not.  
       If the value of -r is 'yes', the job will be rerun if the job was 
       aborted without leaving a consistent  exit state.  

       (This is typically the case if the node on which the job is running
       crashes).  If -r is 'no', the job will not be rerun under any circumstances.
       Interactive jobs submitted with qsh, qrsh or qlogin are not rerunnable.

       Qalter allows changing this option even while the job executes.

Итак, добавление

      #$ -r y

в вашем сценарии работы это должно учитываться.

Другие вопросы по тегам