Llama-2, Q4-время отклика квантованной модели на разных процессорах

Question

Llama-2, Q4-время отклика квантованной модели на разных процессорах

Я запускаю квантованную модель ламы-2 отсюда . Я использую 2 разные машины.

Intel(R) Core(TM) 11-го поколения i7-1165G7 @ 2,80 ГГц 2,80 ГГц 16,0 ГБ (используется 15,8 ГБ)

Время вывода на этой машине довольно хорошее. Я получаю желаемый ответ через 3-4 минуты.

Процессор Intel(R) Xeon(R) E5-2660 0 @ 2,20 ГГц 2,20 ГГц (2 процессора)224 ГБ

Время вывода на этой машине очень велико. Чтобы дать неудовлетворительный ответ, требуется около получаса. У него даже есть графический процессор Nvidia 2080-Ti. (Но не используйте его для загрузки весов модели.

Почему такое поведение? Как процессор влияет на производительность?

Я использую пакет Python llama_cpp для загрузки модели.

1

machine-learning large-language-model llama-cpp-python

Источник

user9726166 29 ноя '23 в 11:56

0 ответов

Другие вопросы по тегам machine-learning large-language-model llama-cpp-python