Не удается найти драйвер NVIDIA после остановки и запуска виртуальной машины с глубоким обучением

[TL;DR] Во-первых, подождите пару минут и проверьте, начинает ли драйвер Nvidia работать правильно. Если нет, остановите и снова запустите экземпляр виртуальной машины.

Я создал виртуальную машину для глубокого обучения (Google Click to Deploy) с графическим процессором A100. После остановки и запуска экземпляра, когда я запускаю nvidia-smi, я получил следующее сообщение об ошибке:

Сбой NVIDIA-SMI, потому что ему не удалось связаться с драйвером NVIDIA. Убедитесь, что установлена ​​и запущена последняя версия драйвера NVIDIA.

Но если я наберу which nvidia-smi, Я получил

/usr/bin/nvidia-smi

Вроде драйвер есть но им нельзя пользоваться. Может ли кто-нибудь предложить, как включить драйвер NVIDIA после остановки и запуска виртуальной машины с глубоким обучением? При первом создании и открытии экземпляра драйвер устанавливается автоматически.

Системная информация (используя uname -m && cat /etc/*release):

x86_64
PRETTY_NAME="Debian GNU/Linux 10 (buster)"
NAME="Debian GNU/Linux"
VERSION_ID="10"
VERSION="10 (buster)"
VERSION_CODENAME=buster
ID=debian
HOME_URL="https://www.debian .org/"
SUPPORT_URL="https://www.debian.org/support"
BUG_REPORT_URL="https://bugs.debian.org/"

Я попробовал сценарии установки от GCP. Первый забег

      curl https://raw.githubusercontent.com/GoogleCloudPlatform/compute-gpu-installation/main/linux/install_gpu_driver.py --output install_gpu_driver.py

А затем запустить

      sudo python3 install_gpu_driver.py

который дает следующее сообщение:

Выполнение: какой nvidia-smi
/usr/bin/nvidia-smi
уже установлен.

2 ответа

тоже столкнулся с этой проблемой. если это кому-то поможет, выполнение следующей команды [1 ] исправит это для нас:

      $ sudo apt-get install linux-headers-`uname -r`

это было на дебиане 11.

бревно

Что сработало для меня (не уверен, что это будет хорошо для следующих запусков), так это удалить все драйверы:sudo apt remove --purge '*nvidia*', а затем принудительно установите с помощьюsudo python3 install_gpu_driver.py.

вinstall_gpu_driver.py, измените строку 230 наreturn Falseвнутриcheck_driver_installedфункция. Затем запустите скрипт.

Кто использует докер, может столкнуться с этой ошибкойdocker: Error response from daemon: could not select device driver "" with capabilities: [[gpu]]и нужно переустановить докер тоже. Эта ветка помогла мне.

Другие вопросы по тегам