Почему Softmax не выбирает с максимальной вероятностью?

Я слушаю лекции курса CS231 из Стэнфордского университета. Я не могу понять точку зрения RNN, почему Softmax не может выбрать наибольшую вероятность, которая равна 0,84 для символа o (в прилагаемом примере) вместо 0,13 для символа e. Пояснения будут высоко оценены.

введите описание изображения здесь

1 ответ

Я на самом деле не смотрел лекцию, но думаю, что "e" вверху - это ожидаемый результат (и "l", "l", "o" тоже). Начальные веса не дают достаточно хороших результатов (давая "о" вместо "е"). По мере обучения сети весы станут более зрелыми, и в конечном итоге вы увидите изменение вероятностей, и в результате первого прогноза в конечном итоге получится "е".

Другие вопросы по тегам