Нейронный машинный перевод: объединение горячего вложения с плотным встраиванием?
В настоящее время я читаю газету о Google's transformer architecture
для нейронного машинного перевода ('Attention is all you need'
). В основанной на RNN настройке seq2seq исходное предложение и выходное предложение обычно кодируются в горячем виде. В статье о трансформаторе говорится, что они дополнительно кодируют позицию токена в предложении с помощью функций синуса / косинуса, что должно привести к тому, что кодирование не будет горячим.
Это может быть наивный вопрос, но разумно ли combine one-hot encoded word with a positional dense encoding
?
Есть ли ожидание, что сеть узнает что-то из такого представления? Информация о словах в основном все ноль, за исключением одного поля с кучей плотных значений, представляющих позицию? Я склонен сказать, что сеть ничего не изучит, или, по крайней мере, информация о токене едва ли получит какой-либо вес, поскольку это одно 1-поле в довольно большом векторе.