Tensorflow, Horovod и NVLINK NotFoundError

Я пытаюсь запустить нейросеть тензорного потока, которая работает на графических процессорах, используя библиотеку уберов Horovod. В то же время я пытаюсь запустить скрипт измерения, который измеряет nvlinks между несколькими графическими процессорами. Увы, всякий раз, когда я запускаю файл, я получаю следующую ошибку:

tenorflow.python.framework.errors_impl.NotFoundError: /home/pat/.virtualenvs/venv/lib/python3.6/site-packages/horovod /tensorflow/mpi_lib.cpython-36m-x86_64-linux-gnu.so: неопределенный символ: _ZN10tensorflow14kernel_factory17OpKernelRegist rar12InitInternalEPKNS_9KernelDefEN4absl11string_viewESt10unique_ptrINS0_15OpKernelFactoryESt14default_deleteIS8_EE

У кого-нибудь есть идеи, как решить эту проблему?

Спасибо.

1 ответ

Пожалуйста, посмотрите на этот вопрос, поднятый на репо:

https://github.com/horovod/horovod/issues/656

Другие вопросы по тегам