В чем смысл "сети прямой передачи данных" в модели трансформатора?
В настоящее время я читаю Google. Внимание - это все, что вам нужно, и я не могу понять, какую роль играет слой с прямой связью.
Я знаю, что это всего лишь два сверточных слоя 1*1, собранные вместе, и эта статья стремилась избежать использования CNN или RNN, поэтому должны быть некоторые причины, чтобы добавить это к модели.
оригинал статьи:
В дополнение к подуровням внимания, каждый из уровней в нашем кодере и декодере содержит полностью подключенную сеть прямой связи, которая применяется к каждой позиции отдельно и одинаково. Он состоит из двух линейных преобразований с активацией ReLU между ними. FFN(х)
http://papers.nips.cc/paper/7181-attention-is-all-you-need.pdf