Почему линейная функция бесполезна в многослойной нейронной сети? Как последний слой становится линейной функцией входа первого слоя?

Я изучал функцию активации в NN, но не мог правильно понять эту часть: "Каждый слой активируется линейной функцией. Эта активация, в свою очередь, переходит на следующий уровень в качестве входных данных, а второй слой вычисляет взвешенную сумму на этом входном сигнале и В свою очередь, огонь основан на другой линейной функции активации.

Независимо от того, сколько у нас слоев, если все они имеют линейный характер, конечная функция активации последнего слоя - не что иное, как линейная функция ввода первого слоя! "

2 ответа

Решение

Это не совсем бесполезно.

Если имеется несколько линейно активированных слоев, результаты вычислений в предыдущем слое будут отправлены на следующий слой в качестве входных данных. То же самое происходит в следующем слое. Он рассчитает входные данные и отправит их на основе другой функции линейной активации на следующий уровень.

Если все слои являются линейными, не имеет значения, сколько на самом деле слоев. Последняя функция активации последнего слоя также будет линейной функцией входных данных с первого уровня.

Если вы хотите прочитать подробное описание функций активации, вы можете найти их здесь и здесь.

Это одна из самых интересных концепций, с которыми я столкнулся при изучении нейронных сетей. Вот как я это понял:

Вход Z в один слой может быть записан как произведение весовой матрицы и вектора вывода узлов в предыдущем слое. таким образом Z_l = W_l * A_l-1 где Z_l является входом в L-й слой. Сейчас A_l = F(Z_l) где F - функция активации слоя L, Если функция активации является линейной, то A_l будет просто фактором K of Z_l, Следовательно, мы можем написать Z_l несколько как:Z_l = W_l*W_l-1*W_l-2*...*X где X это вход. Итак, вы видите вывод Y наконец, будет умножение нескольких матриц на входной вектор для конкретного экземпляра данных. Мы всегда можем найти результирующее умножение весовых матриц. Таким образом, вывод Y будет W_Transpose * X, Это уравнение - не что иное, как линейное уравнение, с которым мы сталкиваемся в линейной регрессии. Следовательно, если все входные слои имеют линейную активацию, выходные данные будут представлять собой только линейную комбинацию входных данных и могут быть записаны с использованием простого линейного уравнения.

Другие вопросы по тегам