Какие преобразователи свойств используют для изображения или последовательности?

Сегодня мой учитель задал мне вопрос: он сказал, что CNN использует инвариантность трансляции изображений или матриц. Так какие же свойства использует трансформатор ???

1 ответ

Есть два основных свойства трансформаторов, которые делают их такими привлекательными по сравнению с извилинами:

  1. Трансформатор является эквивариантным по перестановкам . Это делает трансформаторы очень полезными для предсказания наборов. Для последовательностей и изображений, где порядок имеет значение, используется позиционное кодирование/встраивание.
  2. Восприимчивое поле преобразователя — это весь вход (!), в отличие от очень ограниченного восприимчивого поля сверточного слоя.

См. разд. 3 и рис. 3 в:
Шир Амир, Йосси Гандельсман, Шай Багон и Тали Декель Особенности Deep ViT как плотные визуальные дескрипторы (arXiv 2021).

Другие вопросы по тегам