Как перезапустить сбойное задание PBS в кластере (qsub)?
Я запускаю задание PBS (python) в кластере с помощью команды qsub. Мне любопытно узнать, как я могу перезапустить ту же работу с того места, где она не удалась? Любая помощь будет высоко оценена.
1 ответ
Решение
Скорее всего, вы не можете.
Для возобновления работы необходим файл контрольных точек.
Для этого в вашей среде HPC должна быть явно настроена поддержка контрольных точек, а затем задание должно быть отправлено с дополнительными аргументами командной строки.
См. http://docs.adaptivecomputing.com/torque/3-0-5/2.6jobcheckpoint.php