Позиционные кодировки и отсев
В текущей реализации модели преобразователя отсев применяется сразу после добавления позиционных кодировок к входам как в функциях кодирования, так и в функциях декодирования. соответствующая строка в коде
Поскольку сохраненные функции изменяются, разве это не влияет на структуру базовых позиционных кодировок? Следует ли для корректности добавлять позиционные кодировки после операции выпадения?
Используемая модель https://github.com/tensorflow/models/blob/master/official/nlp/transformer