В модели LSTM для задачи прогнозирования, как я могу получить обратное распространение во времени?
В правиле обучения LSTM я хотел бы вывести алгоритм BPTT. Но большая часть примера деривации, который я нашел, - это предполагаемая задача классификации, выходной функцией которой является softmax. Для типичной модели LSTM на этом рисунке:
Термин деривации
Вывод y против z, для выходного члена
y(t) = f(z(t)), z(t) = V*h(t)
и вывод у против с для
s (t) = g (Ux (t) + W s (t-1)),
функции f () и g () в LSTM, эти две функции сигмоидальные? Или арктангенс? Можно ли вывести алгоритм BPTT, заменив функцию f и g сигмоидом или арктангенсом?