Почему ReLU является нелинейной функцией активации?
Насколько я понимаю, в глубокой нейронной сети мы используем функцию активации (g) после применения весов (w) и смещения (b) (z := w * X + b | a := g(z))
, Так что есть композиционная функция (g o z)
и функция активации позволяет нашей модели изучать функции, отличные от линейных функций. Я вижу, что функция активации Sigmoid и Tanh делает нашу модель нелинейной, но я испытываю некоторые затруднения, когда вижу, что ReLu (который берет максимум из 0 и z) может сделать модель нелинейной...
Скажем, если бы каждый Z всегда был положительным, то это было бы так, как если бы не было функции активации...
Итак, мой вопрос здесь заключается в том, почему ReLu делает в нейронной сети модель нелинейной?
1 ответ
Решение, является ли функция линейной или нет, конечно, не является вопросом мнения или спора; Существует очень простое определение линейной функции, которая примерно равна
f(a*x + b*y) = a*f(x) + b*f(y)
для каждого x
& y
в области функций и a
& b
константы.
Требование "для каждого" означает, что, если нам удастся найти хотя бы один пример, где вышеуказанное условие не выполняется, то функция будет нелинейной.
Предполагая для простоты, что a = b = 1
, давай попробуем x=-5, y=1
с f
будучи функцией ReLU:
f(-5 + 1) = f(-4) = 0
f(-5) + f(1) = 0 + 1 = 1
так что для этих x
& y
(на самом деле для каждого x
& y
с x*y < 0
) состояние f(x + y) = f(x) + f(y)
не выполняется, следовательно, функция является нелинейной...
Тот факт, что мы можем найти субдомены (например, оба x
а также y
быть здесь либо отрицательным, либо положительным), где выполняется условие линейности - это то, что определяет некоторые функции (такие как ReLU) как кусочно- линейные, которые, тем не менее, все еще являются нелинейными.
Теперь, чтобы быть справедливым в вашем вопросе, если в конкретном приложении входные данные всегда были либо полностью положительными, либо отрицательными, тогда да, в этом случае ReLU на практике в конечном итоге будет вести себя как линейная функция. Но для нейронных сетей это не так, поэтому мы действительно можем положиться на нее, чтобы обеспечить необходимую нелинейность...