Использование DeepAR GPU

Я использую Gluonts для построения модели DeepAR, но для запуска обучающего объекта требуется много времени, хотя я использую cox = 'gpu', но выдает ошибку. На моей машине есть графический процессор, но этот вариант не работал. Любая помощь высоко ценится...

2 ответа

Вы можете проверить свою текущую версию mxnet, я считаю, что вы используете версию процессора.

пожалуйста, проверьте следующее:

      import mxnet as mx
    print(f'mxnet version: {mx.__version__}')
    print(f'Number of GPUs: {mx.context.num_gpus()}')

он должен вернуть количество графических процессоров

Мои выводы по обучению моделей GluonTS[mxnet] с использованием графического процессора:

  1. MXNET поддерживает только графический процессор NVIDIA (например: EC2 g4dn.xlarge).
  2. Убедитесь, что драйверы NVIDIA установлены правильно (мне очень помогло использование AMI, например «Deep Learning AMI GPU CUDA»).
  3. Получите версию драйвера, используяnvcc --version

nvcc: Драйвер компилятора NVIDIA (R) Cuda Copyright (c) 2005–2021 Корпорация NVIDIA Создано Mon_May__3_19:15:13_PDT_2021 Инструменты компиляции Cuda, выпуск 11.3, V11.3.109 Сборка cuda_11.3.r11.3/compiler.29920130_0

  1. Удалить mxnetpip uninstall mxnet
  2. Установите mxnet с поддержкой cuda в соответствии с версией вашего драйвера.pip install mxnet-cu113
  3. При желании установите в своем трейнере графический процессор (он должен автоматически определить графический процессор, но вы можете сделать это принудительно)
       trainer=Trainer(
        ctx=mxnet.context.gpu(),
        epochs=train_conf.max_epochs,
        num_batches_per_epoch=train_conf.num_batches_per_epoch,
    )
  1. Запустите обучение и проверьте, используется ли графический процессор.nvidia-smiВы должны увидеть что-то вроде этого:
       +-----------------------------------------------------------------------------+
| NVIDIA-SMI 510.47.03    Driver Version: 510.47.03    CUDA Version: 11.6     |
|-------------------------------+----------------------+----------------------+
| GPU  Name        Persistence-M| Bus-Id        Disp.A | Volatile Uncorr. ECC |
| Fan  Temp  Perf  Pwr:Usage/Cap|         Memory-Usage | GPU-Util  Compute M. |
|                               |                      |               MIG M. |
|===============================+======================+======================|
|   0  Tesla T4            On   | 00000000:00:1E.0 Off |                    0 |
| N/A   32C    P0    37W /  70W |   1101MiB / 15360MiB |     39%      Default |
|                               |                      |                  N/A |
+-------------------------------+----------------------+----------------------+

+-----------------------------------------------------------------------------+
| Processes:                                                                  |
|  GPU   GI   CI        PID   Type   Process name                  GPU Memory |
|        ID   ID                                                   Usage      |
|=============================================================================|
|    0   N/A  N/A     16057      C   python                           1099MiB |
+-----------------------------------------------------------------------------+
Другие вопросы по тегам