Кондор Тайм-аут для простоя
Я работаю на кластере кондоров, но некоторые зависают в нерабочем состоянии и, кажется, никогда не запускаются, не говоря уже о завершении. Если не делать вручную condor_wait -wait n logfile
, затем condor_rm
Есть ли более изящный (и автоматический, встроенный) способ завершения зависшей работы?
И наоборот, поскольку эти задания выполняются в dagman, существует ли способ тайм-аута задания в dagman, чтобы можно было запускать более поздние задания?
1 ответ
Вот два способа заставить задание автоматически удаляться после слишком долгого простоя (в этом примере 24 часа).
Поместите в файл для отправки следующее:
period_remove = JobStatus == 1 && CurrentTime-EnteredCurrentStatus > 3600*24
Или добавьте в файл конфигурации condor следующее:
SYSTEM_PERIODIC_REMOVE = JobStatus == 1 && CurrentTime-EnteredCurrentStatus> 3600 * 24
Конечно, было бы лучше понять, почему рабочие места остаются в состоянии ожидания. Для этого вы можете найти condor_q -analyze jobid
полезно.