Как развернуть GPT-подобную модель на сервере вывода Triton?

Учебники по развертыванию GPT-подобных моделей для Triton выглядят следующим образом:

  1. Предварительно обработайте наши данные какinput_ids = tokenizer(text)["input_ids"]
  2. Подайте входные данные на сервер вывода Triton и получитеoutputs_ids = model(input_ids)
  3. Выходы постобработки, такие как
      outputs = outputs_ids.logits.argmax(axis=2)
outputs = tokenizer.decode(outputs)

Я использую тонкую модель GPT2, и этот метод дает неверный результат. Правильный результат будет получен методом.

Существует способ развертывания тонко настроенной модели обнимающего лица в стиле GPT в Triton с логическим выводом.model.decode(input_ids)нетmodel(input_ids)?

0 ответов

Другие вопросы по тегам