ReLu и отсев в CNN

Question

ReLu и отсев в CNN

Я изучаю сверточные нейронные сети. Я запутался в некоторых слоях в CNN.

Что касается ReLu... Я просто знаю, что это сумма бесконечной логистической функции, но ReLu не подключается ни к каким верхним уровням. Зачем нам ReLu, и как он работает?

Что касается Dropout... Как работает dropout? Я слушал видео-разговор от Г. Хинтона. Он сказал, что есть стратегия, которая просто игнорирует половину узлов случайным образом, когда тренирует веса, и делит вес пополам при прогнозировании. Он говорит, что он был вдохновлен случайными лесами и работает точно так же, как вычисление среднего геометрического этих случайно обученных моделей.

Эта стратегия такая же, как и увольнение?

Может кто-нибудь помочь мне решить это?

18

deep-learning neural-network dropout

Источник

user3783676 05 дек '14 в 16:01

1 ответ

Решение

Другие вопросы по тегам deep-learning neural-network dropout

user3952838 08 дек '14 в 13:37 2014-12-08 13:37 · Accepted Answer · 2014-12-08 13:37

ReLu: функция выпрямителя - это функция активации f(x) = Max(0, x), которая может использоваться нейронами, как и любая другая функция активации, узел, использующий функцию активации выпрямителя, называется узлом ReLu. Основная причина его использования заключается в том, насколько эффективно он может быть вычислен по сравнению с более традиционными функциями активации, такими как сигмоидальная и гиперболическая касательная, без существенного различия в точности обобщения. Функция активации выпрямителя используется вместо функции линейной активации для добавления нелинейности в сеть, в противном случае сеть сможет вычислить только линейную функцию.

Выпадение: Да, описанный метод такой же, как и отсев. Причина, по которой случайное игнорирование узлов является полезным, состоит в том, что он предотвращает возникновение взаимозависимостей между узлами (то есть узлы не изучают функции, которые полагаются на входные значения от другого узла), это позволяет сети учиться более надежным отношениям. Реализация отсева имеет почти то же влияние, что и получение среднего значения от комитета сетей, однако затраты значительно меньше как по времени, так и по объему памяти.