Позиционные кодировки и отсев

В текущей реализации модели преобразователя отсев применяется сразу после добавления позиционных кодировок к входам как в функциях кодирования, так и в функциях декодирования. соответствующая строка в коде

Поскольку сохраненные функции изменяются, разве это не влияет на структуру базовых позиционных кодировок? Следует ли для корректности добавлять позиционные кодировки после операции выпадения?

Используемая модель https://github.com/tensorflow/models/blob/master/official/nlp/transformer

0 ответов

Другие вопросы по тегам