Кондор Тайм-аут для простоя

Я работаю на кластере кондоров, но некоторые зависают в нерабочем состоянии и, кажется, никогда не запускаются, не говоря уже о завершении. Если не делать вручную condor_wait -wait n logfile, затем condor_rmЕсть ли более изящный (и автоматический, встроенный) способ завершения зависшей работы?

И наоборот, поскольку эти задания выполняются в dagman, существует ли способ тайм-аута задания в dagman, чтобы можно было запускать более поздние задания?

1 ответ

Вот два способа заставить задание автоматически удаляться после слишком долгого простоя (в этом примере 24 часа).

  1. Поместите в файл для отправки следующее:

    period_remove = JobStatus == 1 && CurrentTime-EnteredCurrentStatus > 3600*24

  2. Или добавьте в файл конфигурации condor следующее:

    SYSTEM_PERIODIC_REMOVE = JobStatus == 1 && CurrentTime-EnteredCurrentStatus> 3600 * 24

Конечно, было бы лучше понять, почему рабочие места остаются в состоянии ожидания. Для этого вы можете найти condor_q -analyze jobid полезно.

Другие вопросы по тегам