Почему ReLU является нелинейной функцией активации?

Насколько я понимаю, в глубокой нейронной сети мы используем функцию активации (g) после применения весов (w) и смещения (b) (z := w * X + b | a := g(z)), Так что есть композиционная функция (g o z) и функция активации позволяет нашей модели изучать функции, отличные от линейных функций. Я вижу, что функция активации Sigmoid и Tanh делает нашу модель нелинейной, но я испытываю некоторые затруднения, когда вижу, что ReLu (который берет максимум из 0 и z) может сделать модель нелинейной...

Скажем, если бы каждый Z всегда был положительным, то это было бы так, как если бы не было функции активации...

Итак, мой вопрос здесь заключается в том, почему ReLu делает в нейронной сети модель нелинейной?

1 ответ

Решение

Решение, является ли функция линейной или нет, конечно, не является вопросом мнения или спора; Существует очень простое определение линейной функции, которая примерно равна

f(a*x + b*y) = a*f(x) + b*f(y)

для каждого x & y в области функций и a & b константы.

Требование "для каждого" означает, что, если нам удастся найти хотя бы один пример, где вышеуказанное условие не выполняется, то функция будет нелинейной.

Предполагая для простоты, что a = b = 1, давай попробуем x=-5, y=1 с f будучи функцией ReLU:

f(-5 + 1) = f(-4) = 0
f(-5) + f(1) = 0 + 1 = 1

так что для этих x & y (на самом деле для каждого x & y с x*y < 0) состояние f(x + y) = f(x) + f(y) не выполняется, следовательно, функция является нелинейной...

Тот факт, что мы можем найти субдомены (например, оба x а также y быть здесь либо отрицательным, либо положительным), где выполняется условие линейности - это то, что определяет некоторые функции (такие как ReLU) как кусочно- линейные, которые, тем не менее, все еще являются нелинейными.

Теперь, чтобы быть справедливым в вашем вопросе, если в конкретном приложении входные данные всегда были либо полностью положительными, либо отрицательными, тогда да, в этом случае ReLU на практике в конечном итоге будет вести себя как линейная функция. Но для нейронных сетей это не так, поэтому мы действительно можем положиться на нее, чтобы обеспечить необходимую нелинейность...

Другие вопросы по тегам