Непонятное сообщение MPI

Я запускаю параллельное приложение, и оно работает нормально, пока не произойдет внезапное прерывание со следующим массажем из пары ядер:

[n18:mpi_rank_91][handle_cqe] Send desc error in msg to 103, wc_opcode=0
[n18:mpi_rank_91][handle_cqe] Msg from 103: wc.status=12, wc.wr_id=0xbc8d140, wc.opcode=0, vbuf->phead->type=0 = MPIDI_CH3_PKT_EAGER_SEND
[n18:mpi_rank_91][handle_cqe] src/mpid/ch3/channels/mrail/src/gen2/ibv_channel_manager.c:587: [] Got completion with error 12, vendor code=0x81, dest rank=103 : Numerical result out of range (34)

Я новичок в использовании / отладке MPI. Мой поиск не дал однозначного заключения (например, https://software.intel.com/en-us/node/535587); О чем говорят вышеупомянутые массажи? Как найти ошибку в параллельном (Fortran) коде с таким массажем?

Дополнительный вопрос: если у моего приложения есть внутренний тяжелый блок, в котором часть узлов тратит растущее количество времени, то как долго узлы, завершившие свою задачу, могут ожидать более медленные на интерфейсе до того, как Infiniband затор достигнут?

0 ответов

Другие вопросы по тегам