StableLM отвечает слишком медленно на виртуальной машине GCP с графическим процессором
Я установил StableLM на виртуальную машину GCP со следующими характеристиками:
1 x NVIDIA Tesla P4, 8 виртуальных ЦП — 30 ГБ памяти.
И я установил параметры модели. Но ответы на вопросы занимают слишком много времени, ~8 минут. Это было быстрее даже при использовании процессора,~2 минуты. Я скачал репозиторий напрямую по официальной ссылке на Github и запускаю там блокнот. Где я делаю неправильно? (Я установил nvidia и cuda и нашел код nvidia-smi)
Также, когда я удаляюllm_int8_enable_fp32_cpu_offload=True
параметр кода даже не работает. Выдает эту ошибку: (Я обновил память до 16 виртуальных ЦП, 104 ГБ памяти, но эта ошибка все равно отображается)
1 ответ
Похоже, что все используемые ресурсы хороши, я рекомендую посмотреть тип процессора, как упоминал @alvas.
Вот ссылка для справки, где обсуждаются характеристики системы StableLM и некоторые рекомендации по оптимальной производительности. [1]