Как настроить Chapel/GASNet для запуска мультилокальных кодов в сети MXM Infiniband с ключом раздела?
Я пытаюсь запустить многослойный код Chapel в кластере с сетью MXM Infiniband (40 Гбит / с, модель: Mellanox Technologies MT26428).
Я следовал за документацией Chapel и GASNet, и я установил
export CHPL_COMM_SUBSTRATE=ibv
export CHPL_LAUNCHER=gasnetrun_ibv
export GASNET_IBV_SPAWNER=mpi
Вместо того, чтобы использовать CHPL_COMM_SUBSTRATE=mxm
, как только mxm устарела.
Проблема в том, что я могу построить часовню, используя подложку ibv. Но я не могу работать в нескольких локалях. Я получаю огромное количество ошибок тайм-аута.
Во-первых, я думал, что проблема была в PKEY. Итак, я добавил "--mca btl_openib_pkey "0x8100""
к MPIRUN_CMD
, Но безуспешно.
Я также попытался использовать устаревшую конфигурацию mxm:
CHPL_LAUNCHER=gasnetrun_mxm
export CHPL_LAUNCHER=gasnetrun_ibv
export GASNET_MXM_SPAWNER=mpi
Однако я не могу построить часовню с такой конфигурацией. Это сообщение об ошибке:
"User requested --enable-mxm, but I don't know how to build mxm programs for your system."
Кстати, использование GASNET поверх MPI, UDP и Infiniband без ключа разделения работает просто отлично.
Кто-нибудь знает, как использовать Chapel в кластере, оборудованном сетью MXM Infiniband и ключом раздела (PKEY)?
С уважением,
Тьяго Карнейро.
1 ответ
Тьягу,
Как автор и сопровождающий iBV-проводника GASNet (поддержка libibverbs), я могу сказать, что у нас никогда не было поддержки PKey не по умолчанию. Сообщение *** FATAL ERROR: failed to connect (snd) status=12
согласуется с использованием неправильной PKey.
Основываясь на вашем вопросе, я предпринял попытку обеспечить поддержку указанного пользователем PKey. Мой прототип можно найти в виде запроса на извлечение в git-репозитории GASNet на Bitbucket: https://bitbucket.org/berkeleylab/gasnet/pull-requests/248 (или https://bitbucket.org/PHHargrove/gasnet-public/commits/ibv-pkey/raw чтобы получить только сырой патч). Вы должны быть в состоянии применить один коммит в этом PR в third-party/gasnet/gasnet-src
справочник источника часовни. У меня нет разделенной сети IB для тестирования. Итак, вы бы мне помогли, если бы вы могли убедиться, что это решит вашу проблему.
относительно User requested --enable-mxm, but I don't know how to build mxm programs for your system
Я подозреваю, что зонду конфигурации GASNet не удалось найти необходимые заголовки или библиотеки. Подробности отказа должны быть в config.log
файл ниже third-party/gasnet/build
, Если ваши заголовки и библиотеки mxm установлены в ином месте, чем /opt/mellanox/mxm
тогда вы можете установить переменную среды MXM_HOME
при строительстве часовни, чтобы сообщить сценарию конфигурации GASNet о фактическом местоположении. Однако я не знаю никакой поддержки PKey в libmxm. Так что это может быть тупик.
-Павел