Почему Softmax не выбирает с максимальной вероятностью?
1 ответ
Я на самом деле не смотрел лекцию, но думаю, что "e" вверху - это ожидаемый результат (и "l", "l", "o" тоже). Начальные веса не дают достаточно хороших результатов (давая "о" вместо "е"). По мере обучения сети весы станут более зрелыми, и в конечном итоге вы увидите изменение вероятностей, и в результате первого прогноза в конечном итоге получится "е".