Загрузка модели HF в несколько графических процессоров и выполнение выводов на этих графических процессорах (без обучения или точной настройки)

Есть ли способ загрузить модель Hugging Face в несколько графических процессоров и использовать эти графические процессоры для вывода?

Например, есть эта модель, которую можно загрузить на один графический процессор (по умолчанию cuda:0) и запустить для вывода, как показано ниже:

      from transformers import AutoTokenizer, AutoModelForCausalLM

tokenizer = AutoTokenizer.from_pretrained("togethercomputer/LLaMA-2-7B-32K")
model = AutoModelForCausalLM.from_pretrained("togethercomputer/LLaMA-2-7B-32K", torch_dtype=torch.float16)

input_context= "Your text here"
input_ids = tokenizer.encode(input_context, return_tensors="pt").to(model.device)
output = model.generate(input_ids, max_length=256, temperature=0.7)
output_text = tokenizer.decode(output[0], skip_special_tokens=True)
print(output_text)

Как мне загрузить и запустить эту модель для вывода на двух или более графических процессорах с помощью Accelerate или DeepSpeed?

Имейте в виду, что это не предназначено для обучения или точной настройки модели, а только для вывода.

Любые рекомендации/помощь будут высоко оценены, с нетерпением ждем!

0 ответов

Другие вопросы по тегам