Как перезапустить сбойное задание PBS в кластере (qsub)?

Я запускаю задание PBS (python) в кластере с помощью команды qsub. Мне любопытно узнать, как я могу перезапустить ту же работу с того места, где она не удалась? Любая помощь будет высоко оценена.

1 ответ

Решение

Скорее всего, вы не можете.

Для возобновления работы необходим файл контрольных точек.
Для этого в вашей среде HPC должна быть явно настроена поддержка контрольных точек, а затем задание должно быть отправлено с дополнительными аргументами командной строки.

См. http://docs.adaptivecomputing.com/torque/3-0-5/2.6jobcheckpoint.php

Другие вопросы по тегам