Какие преобразователи свойств используют для изображения или последовательности?
Сегодня мой учитель задал мне вопрос: он сказал, что CNN использует инвариантность трансляции изображений или матриц. Так какие же свойства использует трансформатор ???
1 ответ
Есть два основных свойства трансформаторов, которые делают их такими привлекательными по сравнению с извилинами:
- Трансформатор является эквивариантным по перестановкам . Это делает трансформаторы очень полезными для предсказания наборов. Для последовательностей и изображений, где порядок имеет значение, используется позиционное кодирование/встраивание.
- Восприимчивое поле преобразователя — это весь вход (!), в отличие от очень ограниченного восприимчивого поля сверточного слоя.
См. разд. 3 и рис. 3 в:
Шир Амир, Йосси Гандельсман, Шай Багон и Тали Декель Особенности Deep ViT как плотные визуальные дескрипторы (arXiv 2021).