Почему библиотека Python DRMAA (drmaa-python) не может иногда определять статус задания, переданного в SGE (НЕ УДАЛЕНО)?

Я использую drmaa-python для отправки и мониторинга заданий и из SGE (Sun Grid Engine). У меня следующий статус в GUI

  • Вакансии активны в очереди
  • Бег Работа
  • Завершенные вакансии
  • Неудачные вакансии
  • Статус не определен

Иногда я получаю мало работ с неопределенным статусом. Когда я проверяю состояние заданий с помощью qstat в терминале хост-машины SGE, я вижу, что все задания выполняются без сбоев ни одного. Статус "Не определено" часто вводит пользователей в заблуждение, поскольку пользователь может подумать, что у заданий с неопределенным статусом возникают какие-то проблемы.

Итак, я понимаю, что проблема не в SGE, а в библиотеке drmaa-python.

Кто-нибудь знает, почему drmaa-python не может определить статус?

1 ответ

drmaa-python - это просто оболочка ctype вокруг библиотеки DRMAA C без какой-либо специальной логики. По этой причине состояние UNDETERMINED, которое вы видите, - это то, что библиотека SGE DRMAA C предоставляет в тот момент, когда вы спрашиваете.

Из того, что я знаю, время от времени может случиться так, что библиотека DRMAA C для SGE не сможет получить статус. Я бы порекомендовал добавить некоторую настраиваемую логику повторов в ваше приложение на Python, чтобы просто перепроверить планировщик.

Другие вопросы по тегам