В чем смысл "сети прямой передачи данных" в модели трансформатора?

В настоящее время я читаю Google. Внимание - это все, что вам нужно, и я не могу понять, какую роль играет слой с прямой связью.

Я знаю, что это всего лишь два сверточных слоя 1*1, собранные вместе, и эта статья стремилась избежать использования CNN или RNN, поэтому должны быть некоторые причины, чтобы добавить это к модели.

оригинал статьи:

В дополнение к подуровням внимания, каждый из уровней в нашем кодере и декодере содержит полностью подключенную сеть прямой связи, которая применяется к каждой позиции отдельно и одинаково. Он состоит из двух линейных преобразований с активацией ReLU между ними. FFN(х)

http://papers.nips.cc/paper/7181-attention-is-all-you-need.pdf

0 ответов

Другие вопросы по тегам