Какой внешний алгоритм используется для генерации гипотез в Fast R-CNN и SPP-сети?

Я понял, что нам нужен выборочный поиск в качестве внешнего алгоритма для генерации предложений области интереса в R-CNN, но в Fast R-CNN мы можем просто взять все изображение и затем передать его в сверточную сеть для создания карты объектов, а затем использовал один слой SPP (уровень пула RoI).

С другой стороны, мы использовали многослойный SPP в SPP-сети. Для быстрого ознакомления и понимания

В обоих медленных R-CNN, SPP-net и Fast R-CNN интересующая область (RoIs) была из метода предложения ("выборочный поиск", ??, ?? соответственно).

Может кто-нибудь объяснить подробно и процитировать, какие методы предложения явно использовались в SPP-net и Fast R-CN, поскольку я не обнаружил, что это подробно упоминается в исследовательских работах?

1 ответ

Решение

Официальный репозиторий github показал, что и SPP-net, и Fast R-CNN использовали тот же метод предложения региона, что и R-CNN, а именно "выборочный поиск":

SPP_net и Fast R-CNN. В репозитории SPP_net имеется модуль выборочного поиска для предложений по регионам, в быстром репо r-cnn автор специально упомянул способ вычисления предложений по объектам - выборочный поиск.

Но опять же, при создании предложений по регионам также могут использоваться другие методы, поскольку R-CNN и Fast R-CNN приняли методы объектных предложений в качестве внешних модулей, независимых от детекторов.

Вообще говоря, если метод генерирует больше предложений, он может повысить конечную точность обнаружения, но это, конечно, ограничит скорость обнаружения. В разделе 2 "Связанные работы" в документе Faster R-CNN приведена хорошая сводка всех методов создания предложений объектов.

Для последующего вопроса, а именно, как интуитивно представить предложения регионов в карте объектов, это может быть лучше проиллюстрировано на следующем рисунке ( ссылка):

На рисунке красный прямоугольник слева после сверточной операции станет красным квадратом в выходном объеме справа, а зеленый прямоугольник соответствует зеленому квадрату и т. Д. Теперь представьте, что целые 7x7 слева - это предложение региона затем на выходной карте объектов это предложение региона! Конечно, в действительности изображение слева имеет гораздо больше пикселей, поэтому может быть много предложений по регионам, и каждое из этих предложений все равно будет выглядеть как предложение региона на выходной карте объектов!

Наконец, в оригинальной статье SPP_net автор объясняет, как именно они выполнили преобразование предложений регионов из исходного изображения в окна-кандидаты на карте объектов.