Tensorflow, Horovod и NVLINK NotFoundError
Я пытаюсь запустить нейросеть тензорного потока, которая работает на графических процессорах, используя библиотеку уберов Horovod. В то же время я пытаюсь запустить скрипт измерения, который измеряет nvlinks между несколькими графическими процессорами. Увы, всякий раз, когда я запускаю файл, я получаю следующую ошибку:
tenorflow.python.framework.errors_impl.NotFoundError: /home/pat/.virtualenvs/venv/lib/python3.6/site-packages/horovod /tensorflow/mpi_lib.cpython-36m-x86_64-linux-gnu.so: неопределенный символ: _ZN10tensorflow14kernel_factory17OpKernelRegist rar12InitInternalEPKNS_9KernelDefEN4absl11string_viewESt10unique_ptrINS0_15OpKernelFactoryESt14default_deleteIS8_EE
У кого-нибудь есть идеи, как решить эту проблему?
Спасибо.
1 ответ
Пожалуйста, посмотрите на этот вопрос, поднятый на репо: