Понимание отрывка в газете о VGGNet

Я не понимаю отрывок в статье о VGGNet. Может быть, кто-то может помочь.

На мой взгляд, число весов в сверточном слое

p=w*h*d*n+n

где w - ширина фильтров, h высота фильтров, d глубина фильтров и количество фильтров.

В статье написано следующее:

предполагая, что как вход, так и выход трехслойного стека 3 × 3-витка имеют C-каналы, стек параметризован 3*(3^2*C^2) = 27C^2 весами; в то же время, один 7 × 7 конв. слой потребует 7^2*C^2 = 49C^2 параметров.

Я не понимаю, что здесь подразумевается под каналами и почему используется эта формула.

Может кто-то объяснить это мне?

Заранее спасибо.

1 ответ

Решение

Ваша интуиция верна; нам просто нужно немного распаковать их объяснение. Для первого случая:

w = 3 # filter width
h = 3 # filter height
d = C # filter depth (number of channels is same as number of input filters; eg RGB is C=3)
n = C # number of output filters/channels

Это тогда делает whdn = 9C^2 параметры. Затем они также говорят, что есть три из них сложены, так вот 27C^2,

Для одного 7x7 фильтр, то все равно 7x7xCxCx1,

Последнее отличие в том, что вы добавляете n еще раз в конце вашего исходного поста; то есть условия смещения, которые в VGG они пропускают (многие люди пропускают условие смещения, их значение спорно в некоторых ситуациях).

Другие вопросы по тегам