StableLM отвечает слишком медленно на виртуальной машине GCP с графическим процессором

Я установил StableLM на виртуальную машину GCP со следующими характеристиками:

1 x NVIDIA Tesla P4, 8 виртуальных ЦП — 30 ГБ памяти.

И я установил параметры модели. Но ответы на вопросы занимают слишком много времени, ~8 минут. Это было быстрее даже при использовании процессора,~2 минуты. Я скачал репозиторий напрямую по официальной ссылке на Github и запускаю там блокнот. Где я делаю неправильно? (Я установил nvidia и cuda и нашел код nvidia-smi)

Также, когда я удаляюllm_int8_enable_fp32_cpu_offload=Trueпараметр кода даже не работает. Выдает эту ошибку: (Я обновил память до 16 виртуальных ЦП, 104 ГБ памяти, но эта ошибка все равно отображается)

1 ответ

Похоже, что все используемые ресурсы хороши, я рекомендую посмотреть тип процессора, как упоминал @alvas.

Вот ссылка для справки, где обсуждаются характеристики системы StableLM и некоторые рекомендации по оптимальной производительности. [1]

[1] https://github.com/Stability-AI/StableLM/issues/17

Другие вопросы по тегам