Использует ли BagNet перекрывающиеся или не перекрывающиеся исправления?
В следующей статье описывается, как достичь самых современных результатов классификации в ImageNet, используя удивительно простую модель глубокого обучения:
Приближение CNN с моделями Bag-of-local-Features работает на ImageNet на удивление хорошо. Виланд Брендель, Матиас Бетге. ICLR 2019.
Их схема, называемая BagNet, работает путем извлечения всех патчей 33x33 из изображения, подачи каждого такого патча в нейронную сеть, а затем объединения классификации каждого патча. ( Это сообщение в блоге содержит хорошее резюме, и авторы выпустили свой код. К сожалению, их код содержит только код для визуализации тепловых карт, но не для окончательного этапа классификации.)
Мой вопрос: извлекают ли они перекрывающиеся или непересекающиеся исправления? Например, если мы начнем с образа 224x224, получим ли мы 192*192 = 36864 патчей для запуска по сети, или мы получим 7*7 = 49 патчей для запуска по сети? Документ не совсем ясен по этому вопросу, и в общедоступном коде отсутствует часть, которая прояснила бы это. Я хотел бы воспроизвести их эксперименты и применить их схему к другим задачам, которые требуют знания этой информации.
(Я спрашиваю конкретно о шаге классификации, а не о шаге визуализации / объяснения / тепловой карты.)