Как настроить Chapel/GASNet для запуска мультилокальных кодов в сети MXM Infiniband с ключом раздела?

Я пытаюсь запустить многослойный код Chapel в кластере с сетью MXM Infiniband (40 Гбит / с, модель: Mellanox Technologies MT26428).

Я следовал за документацией Chapel и GASNet, и я установил

export CHPL_COMM_SUBSTRATE=ibv

export CHPL_LAUNCHER=gasnetrun_ibv

export GASNET_IBV_SPAWNER=mpi

Вместо того, чтобы использовать CHPL_COMM_SUBSTRATE=mxm, как только mxm устарела.

Проблема в том, что я могу построить часовню, используя подложку ibv. Но я не могу работать в нескольких локалях. Я получаю огромное количество ошибок тайм-аута.

Во-первых, я думал, что проблема была в PKEY. Итак, я добавил "--mca btl_openib_pkey "0x8100"" к MPIRUN_CMD, Но безуспешно.

Я также попытался использовать устаревшую конфигурацию mxm:

CHPL_LAUNCHER=gasnetrun_mxm

export CHPL_LAUNCHER=gasnetrun_ibv

export GASNET_MXM_SPAWNER=mpi

Однако я не могу построить часовню с такой конфигурацией. Это сообщение об ошибке:

"User requested --enable-mxm, but I don't know how to build mxm programs for your system."

Кстати, использование GASNET поверх MPI, UDP и Infiniband без ключа разделения работает просто отлично.

Кто-нибудь знает, как использовать Chapel в кластере, оборудованном сетью MXM Infiniband и ключом раздела (PKEY)?

С уважением,

Тьяго Карнейро.

1 ответ

Решение

Тьягу,

Как автор и сопровождающий iBV-проводника GASNet (поддержка libibverbs), я могу сказать, что у нас никогда не было поддержки PKey не по умолчанию. Сообщение *** FATAL ERROR: failed to connect (snd) status=12 согласуется с использованием неправильной PKey.

Основываясь на вашем вопросе, я предпринял попытку обеспечить поддержку указанного пользователем PKey. Мой прототип можно найти в виде запроса на извлечение в git-репозитории GASNet на Bitbucket: https://bitbucket.org/berkeleylab/gasnet/pull-requests/248 (или https://bitbucket.org/PHHargrove/gasnet-public/commits/ibv-pkey/raw чтобы получить только сырой патч). Вы должны быть в состоянии применить один коммит в этом PR в third-party/gasnet/gasnet-src справочник источника часовни. У меня нет разделенной сети IB для тестирования. Итак, вы бы мне помогли, если бы вы могли убедиться, что это решит вашу проблему.

относительно User requested --enable-mxm, but I don't know how to build mxm programs for your systemЯ подозреваю, что зонду конфигурации GASNet не удалось найти необходимые заголовки или библиотеки. Подробности отказа должны быть в config.log файл ниже third-party/gasnet/build, Если ваши заголовки и библиотеки mxm установлены в ином месте, чем /opt/mellanox/mxm тогда вы можете установить переменную среды MXM_HOME при строительстве часовни, чтобы сообщить сценарию конфигурации GASNet о фактическом местоположении. Однако я не знаю никакой поддержки PKey в libmxm. Так что это может быть тупик.

-Павел

Другие вопросы по тегам