Llama-2, Q4-время отклика квантованной модели на разных процессорах

Я запускаю квантованную модель ламы-2 отсюда . Я использую 2 разные машины.

  1. Intel(R) Core(TM) 11-го поколения i7-1165G7 @ 2,80 ГГц 2,80 ГГц 16,0 ГБ (используется 15,8 ГБ)

Время вывода на этой машине довольно хорошее. Я получаю желаемый ответ через 3-4 минуты.

  1. Процессор Intel(R) Xeon(R) E5-2660 0 @ 2,20 ГГц 2,20 ГГц (2 процессора)224 ГБ

Время вывода на этой машине очень велико. Чтобы дать неудовлетворительный ответ, требуется около получаса. У него даже есть графический процессор Nvidia 2080-Ti. (Но не используйте его для загрузки весов модели.

Почему такое поведение? Как процессор влияет на производительность?

Я использую пакет Python llama_cpp для загрузки модели.

0 ответов

Другие вопросы по тегам