Почему матрица Грамиана работает для VGG16, но не для EfficientNet или MobileNet?

Нейронный алгоритм художественного стиля использует матрицу грамиана промежуточных векторов признаков сети классификации VGG16, обученной в ImageNet. Тогда это, вероятно, был хороший выбор, потому что VGG16 был одним из лучших в классификации. В настоящее время существуют гораздо более эффективные сети классификации, которые превосходят VGG по производительности классификации, но требуют меньшего количества параметров и FLOPS, например EfficientNet и MobileNetv2.

Но когда я попробовал это на практике, функция Gramian Matrix для VGG16 выглядит представительной для стиля изображения в том смысле, что ее расстояние L2 для стилистически похожих изображений меньше, чем расстояние L2 для стилистически несвязанных изображений. Для матрицы Грамиана, рассчитанной на основе функций EfficientNet и MobileNetv2, это не так. Расстояние L2 между очень похожими изображениями и между очень разными изображениями варьируется примерно на 5%.

Исходя из сетевой структуры, все VGG, EfficientNet и MobileNet имеют свертки с пакетной нормализацией и ReLU между ними, поэтому строительные блоки одинаковы. Тогда какое дизайнерское решение является уникальным для VGG, чтобы его грамианская матрица отражала стиль, а EfficientNet и MobileNet - нет?

1 ответ

К настоящему времени я понял: матрице Грамиана для правильной работы требуются частично коррелированные функции. Новые сети обучаются с помощью регуляризатора Dropout, который уменьшит корреляцию между функциями.

Другие вопросы по тегам