Как запустить вывод для тензорной модели T5, развернутой на nvidia triton?

Question

Как запустить вывод для тензорной модели T5, развернутой на nvidia triton?

Я развернул модель tensorrt T5 на сервере nvidia triton, и ниже приведен файл config.pbtxt, но столкнулся с проблемой при выводе модели с помощью клиента triton.

В соответствии с файлом config.pbtxt должно быть 4 входа в модель tensorrt вместе с идентификаторами декодера. Но как мы можем отправить декодер в качестве входных данных для модели, я думаю, что декодер должен быть сгенерирован из выходных данных моделей.

      name: "tensorrt_model"
platform: "tensorrt_plan"
max_batch_size: 0
input [
 {
    name: "input_ids"
    data_type: TYPE_INT32
    dims: [ -1, -1  ]
  },

{
    name: "attention_mask"
    data_type: TYPE_INT32
    dims: [-1, -1 ]
},

{
    name: "decoder_input_ids"
    data_type: TYPE_INT32
    dims: [ -1, -1]
},

{
   name: "decoder_attention_mask"
   data_type: TYPE_INT32
   dims: [ -1, -1 ]
}

]
output [
{
    name: "last_hidden_state"
    data_type: TYPE_FP32
    dims: [ -1, -1, 768 ]
  },

{
    name: "input.151"
    data_type: TYPE_FP32
    dims: [ -1, -1, -1 ]
  }

]

instance_group [
    {
        count: 1
        kind: KIND_GPU
    }
]

1

huggingface inference tensorrt triton

Источник

Rupesh Poojary 18 апр '22 в 12:08

0 ответов

Другие вопросы по тегам huggingface inference tensorrt triton