Как развернуть GPT-подобную модель на сервере вывода Triton?
Учебники по развертыванию GPT-подобных моделей для Triton выглядят следующим образом:
- Предварительно обработайте наши данные как
input_ids = tokenizer(text)["input_ids"]
- Подайте входные данные на сервер вывода Triton и получите
outputs_ids = model(input_ids)
- Выходы постобработки, такие как
outputs = outputs_ids.logits.argmax(axis=2)
outputs = tokenizer.decode(outputs)
Я использую тонкую модель GPT2, и этот метод дает неверный результат. Правильный результат будет получен методом.
Существует способ развертывания тонко настроенной модели обнимающего лица в стиле GPT в Triton с логическим выводом.model.decode(input_ids)
нетmodel(input_ids)
?