Использует ли последний слой нейронной сети классификатора сигмовидную и softmax?
Скрытые слои сети классификатора используют сигмоид или другую функцию активации для введения нелинейности и нормализации данных, но использует ли последний слой сигмоид в сочетании с softmax?
У меня такое ощущение, что это не имеет значения, и сеть будет работать в любом случае, но стоит ли использовать один слой softmax? или сигмоидная функция должна быть применена первой?
1 ответ
В общем, нет смысла в дополнительной активации сигмовидной формы непосредственно перед выходным слоем softmax. Поскольку сигмовидная функция является частным случаем softmax, она просто раздавит значения в [0, 1]
интервал два раза подряд, что даст почти равномерное распределение на выходе. Конечно, вы можете размножаться через это, но это будет гораздо менее эффективно.
Кстати, если вы решили не использовать ReLu, tanh - это, безусловно, лучшая функция активации, чем сигмовидная.