Разница в расчете производной RBM при использовании ContrastiveDivergence
Кто-нибудь может объяснить мне разницу между вычислением производной в RBM с -h_j * x_k и - h_j(x) * x_k? Я нашел исходные коды с обеими реализациями, и я не уверен, какая из них лучше (и почему?)
1 ответ
Под h_j и h_j(x) вы имеете в виду j^ -й скрытый образец нейрона или сигмоидальную активацию j-го скрытого нейрона? Предполагая, что так, если вы вычислите производную от функции отрицательного логарифмического правдоподобия, она окажется равной P(h_j = 1) * x_k.