LoRA и QLoRA: точная настройка производительности на llama2

Я настраиваю llama2, используя LoRA и QLoRA , чтобы увидеть различия в обоих. Сначала я тренировался на loRA со специальным токеном завершения <|end|> , чтобы модель знала, когда остановиться. С настройкой loRA все работает нормально, и модель также прогнозирует токен <|end|> . сохраняя конфигурацию обучения такой же, за исключением 4-битного квантования с помощью QLoRA, я вижу, что модель не может предсказать <|end|>.

Кроме того, когда я готовлю модель peft, я загружаю ее с помощью prere_model_for_kbit_training , а затем выполняю get_peft_model. Нужно ли мне готовить_model_for_kbit_training , когда я выполняю 4-битное квантование в QLoRA. Потому что если я этого не сделаю, то это CUDA OOM. Все остается неизменным, например, размер пакета и все другие параметры для loRA и QLoRA.

В чем может быть причина меньшей точности QLoRA. Насколько я понял, это уменьшает загрузку графического процессора, но влияет ли это на производительность модели.

0 ответов

Другие вопросы по тегам