Как подготовить вектор смещения в tenor2tensor?
У меня проблемы с пониманием того, как bias
работает в tensor2tensor
особенно в multihead_attention
или же dot_product_attention
, Я хочу использовать его в качестве библиотеки для моей проблемы.
Допустим, у меня есть входной тензор, T
с размером, (batch, max_input_length, hidden_unit)
за пакет предложений S
, И у меня также есть тензор, sequence_length
чье измерение (batch)
упоминая длину каждого предложения в S
, Теперь, как я могу подготовить bias
вектор для этого input
?
Я хочу рассчитать bias
вектор для self_attention
это означает, что когда q
, k
, v
такой же.
Другое дело, что происходит с bias
если q
отличается и k
, v
такой же? Это своего рода cross_attention
, Я думаю, что в этом случае мы должны рассчитать вектор смещения для k
, Но я не уверен.