StableLM отвечает слишком медленно на виртуальной машине GCP с графическим процессором

Question

StableLM отвечает слишком медленно на виртуальной машине GCP с графическим процессором

Я установил StableLM на виртуальную машину GCP со следующими характеристиками:

1 x NVIDIA Tesla P4, 8 виртуальных ЦП — 30 ГБ памяти.

И я установил параметры модели. Но ответы на вопросы занимают слишком много времени, ~8 минут. Это было быстрее даже при использовании процессора,~2 минуты. Я скачал репозиторий напрямую по официальной ссылке на Github и запускаю там блокнот. Где я делаю неправильно? (Я установил nvidia и cuda и нашел код nvidia-smi)

Также, когда я удаляюllm_int8_enable_fp32_cpu_offload=Trueпараметр кода даже не работает. Выдает эту ошибку: (Я обновил память до 16 виртуальных ЦП, 104 ГБ памяти, но эта ошибка все равно отображается)

0

google-cloud-platform gpu huggingface-transformers llm nvidia-smi

Источник

user13704980 22 авг '23 в 13:20

1 ответ

Другие вопросы по тегам google-cloud-platform gpu huggingface-transformers llm nvidia-smi

Ray John Navarro 28 авг '23 в 15:37 2023-08-28 15:37 · Answer 1 · 2023-08-28 15:37

Похоже, что все используемые ресурсы хороши, я рекомендую посмотреть тип процессора, как упоминал @alvas.

Вот ссылка для справки, где обсуждаются характеристики системы StableLM и некоторые рекомендации по оптимальной производительности. [1]

[1] https://github.com/Stability-AI/StableLM/issues/17