Запуск LLama2 на машине GeForce 1080 8Gb

Я пытаюсь запустить LLama2 на своем сервере, на котором упоминается карта nvidia. Это простой кейс «Привет, мир», который вы можете найти здесь . Однако я постоянно сталкиваюсь с проблемами с памятью:

      torch.cuda.OutOfMemoryError: CUDA out of memory. Tried to allocate 250.00 MiB (GPU 0; 7.92 GiB total capacity; 7.12 GiB already allocated; 241.62 MiB free; 7.18 GiB reserved in total by PyTorch) If reserved memory is >> allocated memory try setting max_split_size_mb to avoid fragmentation.  See documentation for Memory Management and PYTORCH_CUDA_ALLOC_CONF

Я пытался

экспорт PYTORCH_CUDA_ALLOC_CONF=max_split_size_mb:128

но эффект тот же. Могу ли я что-нибудь сделать?

1 ответ

По данным этого источника :

Используемая вами модель будет зависеть от вашего оборудования. Для получения хороших результатов у вас должно быть как минимум 10 ГБ видеопамяти для модели 7B, хотя иногда вы можете добиться успеха и с 8 ГБ видеопамяти.

Чтобы уменьшить объем памяти, занимаемой моделью, я сначала рекомендую попробовать запустить модель с половинной точностью (если поддерживается) с размером пакета, равным единице. Если вы все еще испытываетеЯ предлагаю вам попробовать квантованную версию модели, как, например, эти .

Другие вопросы по тегам