Понимание отрывка в газете о VGGNet
Я не понимаю отрывок в статье о VGGNet. Может быть, кто-то может помочь.
На мой взгляд, число весов в сверточном слое
p=w*h*d*n+n
где w - ширина фильтров, h высота фильтров, d глубина фильтров и количество фильтров.
В статье написано следующее:
предполагая, что как вход, так и выход трехслойного стека 3 × 3-витка имеют C-каналы, стек параметризован 3*(3^2*C^2) = 27C^2 весами; в то же время, один 7 × 7 конв. слой потребует 7^2*C^2 = 49C^2 параметров.
Я не понимаю, что здесь подразумевается под каналами и почему используется эта формула.
Может кто-то объяснить это мне?
Заранее спасибо.
1 ответ
Ваша интуиция верна; нам просто нужно немного распаковать их объяснение. Для первого случая:
w = 3 # filter width
h = 3 # filter height
d = C # filter depth (number of channels is same as number of input filters; eg RGB is C=3)
n = C # number of output filters/channels
Это тогда делает whdn = 9C^2
параметры. Затем они также говорят, что есть три из них сложены, так вот 27C^2
,
Для одного 7x7
фильтр, то все равно 7x7xCxCx1
,
Последнее отличие в том, что вы добавляете n
еще раз в конце вашего исходного поста; то есть условия смещения, которые в VGG они пропускают (многие люди пропускают условие смещения, их значение спорно в некоторых ситуациях).