Могут ли остаточные сети пропустить одну линейность вместо двух?

Стандарт в ResNets - пропустить 2 линейности. Будет ли пропускать только одну работу?

1 ответ

Решение

Я хотел бы отослать вас к оригинальной работе Kaiming He в al.

В разделах 3.1-3.2 они определяют ярлыки "идентичность" как y = F(x, W) + x, где W являются обучаемыми параметрами для любого остаточного отображения F быть изученным. Важно, чтобы остаточное отображение содержало нелинейность, иначе вся конструкция представляет собой один сложный линейный слой. Но количество линейностей не ограничено.

Например, сеть ResNeXt создает ярлыки идентификаторов вокруг стека только сверточных слоев (см. Рисунок ниже). Так что в остаточном блоке нет плотных слоев.

разреш-некст-блоки

Общий ответ таков: да, это будет работать. Однако в конкретной нейронной сети сокращение двух плотных слоев до одного может быть плохой идеей, потому что в любом случае остаточный блок должен быть достаточно гибким, чтобы изучить остаточную функцию. Так что не забудьте проверить любой дизайн, который вы придумали.

Другие вопросы по тегам