Не удается найти драйвер NVIDIA после остановки и запуска виртуальной машины с глубоким обучением
[TL;DR] Во-первых, подождите пару минут и проверьте, начинает ли драйвер Nvidia работать правильно. Если нет, остановите и снова запустите экземпляр виртуальной машины.
Я создал виртуальную машину для глубокого обучения (Google Click to Deploy) с графическим процессором A100. После остановки и запуска экземпляра, когда я запускаю
nvidia-smi
, я получил следующее сообщение об ошибке:
Сбой NVIDIA-SMI, потому что ему не удалось связаться с драйвером NVIDIA. Убедитесь, что установлена и запущена последняя версия драйвера NVIDIA.
Но если я наберу
which nvidia-smi
, Я получил
/usr/bin/nvidia-smi
Вроде драйвер есть но им нельзя пользоваться. Может ли кто-нибудь предложить, как включить драйвер NVIDIA после остановки и запуска виртуальной машины с глубоким обучением? При первом создании и открытии экземпляра драйвер устанавливается автоматически.
Системная информация (используя
uname -m && cat /etc/*release
):
x86_64
PRETTY_NAME="Debian GNU/Linux 10 (buster)"
NAME="Debian GNU/Linux"
VERSION_ID="10"
VERSION="10 (buster)"
VERSION_CODENAME=buster
ID=debian
HOME_URL="https://www.debian .org/"
SUPPORT_URL="https://www.debian.org/support"
BUG_REPORT_URL="https://bugs.debian.org/"
Я попробовал сценарии установки от GCP. Первый забег
curl https://raw.githubusercontent.com/GoogleCloudPlatform/compute-gpu-installation/main/linux/install_gpu_driver.py --output install_gpu_driver.py
А затем запустить
sudo python3 install_gpu_driver.py
который дает следующее сообщение:
Выполнение: какой nvidia-smi
/usr/bin/nvidia-smi
уже установлен.
2 ответа
тоже столкнулся с этой проблемой. если это кому-то поможет, выполнение следующей команды [1 ] исправит это для нас:
$ sudo apt-get install linux-headers-`uname -r`
это было на дебиане 11.
Что сработало для меня (не уверен, что это будет хорошо для следующих запусков), так это удалить все драйверы:sudo apt remove --purge '*nvidia*'
, а затем принудительно установите с помощьюsudo python3 install_gpu_driver.py
.
вinstall_gpu_driver.py
, измените строку 230 наreturn False
внутриcheck_driver_installed
функция. Затем запустите скрипт.
Кто использует докер, может столкнуться с этой ошибкойdocker: Error response from daemon: could not select device driver "" with capabilities: [[gpu]]
и нужно переустановить докер тоже. Эта ветка помогла мне.