Как запустить вывод для тензорной модели T5, развернутой на nvidia triton?
Я развернул модель tensorrt T5 на сервере nvidia triton, и ниже приведен файл config.pbtxt, но столкнулся с проблемой при выводе модели с помощью клиента triton.
В соответствии с файлом config.pbtxt должно быть 4 входа в модель tensorrt вместе с идентификаторами декодера. Но как мы можем отправить декодер в качестве входных данных для модели, я думаю, что декодер должен быть сгенерирован из выходных данных моделей.
name: "tensorrt_model"
platform: "tensorrt_plan"
max_batch_size: 0
input [
{
name: "input_ids"
data_type: TYPE_INT32
dims: [ -1, -1 ]
},
{
name: "attention_mask"
data_type: TYPE_INT32
dims: [-1, -1 ]
},
{
name: "decoder_input_ids"
data_type: TYPE_INT32
dims: [ -1, -1]
},
{
name: "decoder_attention_mask"
data_type: TYPE_INT32
dims: [ -1, -1 ]
}
]
output [
{
name: "last_hidden_state"
data_type: TYPE_FP32
dims: [ -1, -1, 768 ]
},
{
name: "input.151"
data_type: TYPE_FP32
dims: [ -1, -1, -1 ]
}
]
instance_group [
{
count: 1
kind: KIND_GPU
}
]