В модели LSTM для задачи прогнозирования, как я могу получить обратное распространение во времени?

В правиле обучения LSTM я хотел бы вывести алгоритм BPTT. Но большая часть примера деривации, который я нашел, - это предполагаемая задача классификации, выходной функцией которой является softmax. Для типичной модели LSTM на этом рисунке:

Термин деривации

Вывод y против z, для выходного члена

y(t) = f(z(t)), z(t) = V*h(t)

и вывод у против с для

s (t) = g (Ux (t) + W s (t-1)),

функции f () и g () в LSTM, эти две функции сигмоидальные? Или арктангенс? Можно ли вывести алгоритм BPTT, заменив функцию f и g сигмоидом или арктангенсом?

0 ответов

Другие вопросы по тегам