Почему в трансформаторе чем выше показатель внимания между двумя токенами, тем больше они похожи после последнего слоя?

В последнем слое само-внимания преобразователя кажется, что чем больше показатель внимания между двумя токенами, тем больше они будут похожи после этого слоя, т. е. они очень близки в векторном пространстве. Но я не знаю причины. Может ли кто-нибудь объяснить это?