Llama-2, Q4-время отклика квантованной модели на разных процессорах
Я запускаю квантованную модель ламы-2 отсюда . Я использую 2 разные машины.
- Intel(R) Core(TM) 11-го поколения i7-1165G7 @ 2,80 ГГц 2,80 ГГц 16,0 ГБ (используется 15,8 ГБ)
Время вывода на этой машине довольно хорошее. Я получаю желаемый ответ через 3-4 минуты.
- Процессор Intel(R) Xeon(R) E5-2660 0 @ 2,20 ГГц 2,20 ГГц (2 процессора)224 ГБ
Время вывода на этой машине очень велико. Чтобы дать неудовлетворительный ответ, требуется около получаса. У него даже есть графический процессор Nvidia 2080-Ti. (Но не используйте его для загрузки весов модели.
Почему такое поведение? Как процессор влияет на производительность?
Я использую пакет Python llama_cpp для загрузки модели.