Странные результаты градиента с повторяющимися слоями
Я экспериментировал с очень простыми рекуррентными сетями и видел действительно странное поведение. Я потратил довольно много времени, пытаясь сузить, где это идет не так, и я в итоге обнаружил, что градиенты, вычисленные с помощью theano и методом конечного дифференцирования, радикально отличаются при использовании рекуррентного слоя. Что здесь происходит?
Вот какая у меня проблема:
У меня есть n_seq последовательностей векторов признаков n_steps размерности n_feat вместе с их метками среди классов n_class. Ярлыки даны по шагам по времени, а не по последовательности (поэтому у меня есть метки n_seq*n_steps). Моя цель - обучить модель правильной классификации векторов признаков.
Вот мой минимальный пример:
(В действительности, в данных будет некоторая последовательная информация, поэтому рекуррентные сети должны работать лучше, но в этом минимальном примере я генерирую чисто случайные данные, что достаточно для выявления ошибки.)
Я создаю 2 минимальные сети:
1) Обычная прямая связь (не повторяющаяся), только с входным слоем и выходным слоем с softmax (без скрытого слоя). Я отказываюсь от последовательной информации, рассматривая "пакет" из n_seq*n_steps "независимых" векторов признаков.
2) идентичная сеть, но где выходной слой является повторяющимся. Пакет теперь имеет размер n_seq, и каждый вход представляет собой полную последовательность векторов объектов n_steps. Наконец, я преобразовываю вывод обратно в "пакет" размером n_seq*n_steps.
Если текущие веса установлены в 0, 2 сети должны быть эквивалентны. Действительно, я вижу, что начальные потери для обеих сетей в этом случае одинаковы, независимо от того, какая у меня случайная инициализация для весов прямой связи. Если я реализую конечное дифференцирование, я также получу, что (начальные) градиенты для весов прямой связи одинаковы (как и должно быть). Однако градиенты, полученные из theano, радикально отличаются (но только для рекуррентной сети).
Вот мой код с примером результата:
ПРИМЕЧАНИЕ: при первом запуске я получаю это предупреждение, я не знаю, что его вызывает, но держу пари, что оно имеет отношение к моей проблеме. Предупреждение: в строгом режиме все необходимые общие переменные должны быть переданы как часть non_sequence 'должны быть переданы как часть non_sequence', Warning)
Любое понимание будет высоко ценится!
КОД:
import numpy as np
import theano
import theano.tensor as T
import lasagne
# GENERATE RANDOM DATA
n_steps = 10**4
n_seq = 10
n_feat = 2
n_class = 2
data_X = lasagne.utils.floatX(np.random.randn(n_seq, n_steps, n_feat))
data_y = np.random.randint(n_class, size=(n_seq, n_steps))
# INITIALIZE WEIGHTS
# feed-forward weights (random)
W = theano.shared(lasagne.utils.floatX(np.random.randn(n_feat,n_class)), name="W")
# recurrent weights (set to 0)
W_rec = theano.shared(lasagne.utils.floatX(np.zeros((n_class,n_class))), name="Wrec")
# bias (set to 0)
b = theano.shared(lasagne.utils.floatX(np.zeros((n_class,))), name="b")
def create_functions(model, X, y, givens):
"""Helper for building a network."""
loss = lasagne.objectives.categorical_crossentropy(lasagne.layers.get_output(model, X), y).mean()
get_loss = theano.function(
[], loss,
givens=givens
)
all_params = lasagne.layers.get_all_params(model)
get_theano_grad = [
theano.function(
[], g,
givens=givens
)
for g in theano.grad(loss, all_params)
]
return get_loss, get_theano_grad
def feedforward():
"""Creates a minimal feed-forward network."""
l_in = lasagne.layers.InputLayer(
shape=(n_seq*n_steps, n_feat),
)
l_out = lasagne.layers.DenseLayer(
l_in,
num_units=n_class,
nonlinearity=lasagne.nonlinearities.softmax,
W=W,
b=b
)
model = l_out
X = T.matrix('X')
y = T.ivector('y')
givens={
X: theano.shared(data_X.reshape((n_seq*n_steps, n_feat))),
y: T.cast(theano.shared(data_y.reshape((n_seq*n_steps,))), 'int32'),
}
return (model,) + create_functions(model, X, y, givens)
def recurrent():
"""Creates a minimal recurrent network."""
l_in = lasagne.layers.InputLayer(
shape=(n_seq, n_steps, n_feat),
)
l_out = lasagne.layers.RecurrentLayer(
l_in,
num_units=n_class,
nonlinearity=lasagne.nonlinearities.softmax,
gradient_steps=1,
W_in_to_hid=W,
W_hid_to_hid=W_rec,
b=b,
)
l_reshape = lasagne.layers.ReshapeLayer(l_out, (n_seq*n_steps, n_class))
model = l_reshape
X = T.tensor3('X')
y = T.ivector('y')
givens={
X: theano.shared(data_X),
y: T.cast(theano.shared(data_y.reshape((n_seq*n_steps,))), 'int32'),
}
return (model,) + create_functions(model, X, y, givens)
def finite_diff(param, loss_func, epsilon):
"""Computes a finitie differentation gradient of loss_func wrt param."""
loss = loss_func()
P = param.get_value()
grad = np.zeros_like(P)
it = np.nditer(P , flags=['multi_index'])
while not it.finished:
ind = it.multi_index
dP = P.copy()
dP[ind] += epsilon
param.set_value(dP)
grad[ind] = (loss_func()-loss)/epsilon
it.iternext()
param.set_value(P)
return grad
def theano_diff(net, get_theano_grad):
for p,g in zip(lasagne.layers.get_all_params(net), get_theano_grad):
if p.name == "W":
gW = np.array(g())
if p.name == "b":
gb = np.array(g())
return gW, gb
def compare_ff_rec():
eps = 1e-3 # for finite differentiation
ff, get_loss_ff, get_theano_grad_ff = feedforward()
rec, get_loss_rec, get_theano_grad_rec = recurrent()
gW_ff_finite = finite_diff(W, get_loss_ff, eps)
gb_ff_finite = finite_diff(b, get_loss_ff, eps)
gW_rec_finite = finite_diff(W, get_loss_rec, eps)
gb_rec_finite = finite_diff(b, get_loss_rec, eps)
gW_ff_theano, gb_ff_theano = theano_diff(ff, get_theano_grad_ff)
gW_rec_theano, gb_rec_theano = theano_diff(rec, get_theano_grad_rec)
print "\nloss:"
print "FF:\t", get_loss_ff()
print "REC:\t", get_loss_rec()
print "\ngradients:"
print "W"
print "FF finite:\n", gW_ff_finite.ravel()
print "FF theano:\n", gW_ff_theano.ravel()
print "REC finite:\n", gW_rec_finite.ravel()
print "REC theano:\n", gW_rec_theano.ravel()
print "b"
print "FF finite:\n", gb_ff_finite.ravel()
print "FF theano:\n", gb_ff_theano.ravel()
print "REC finite:\n", gb_rec_finite.ravel()
print "REC theano:\n", gb_rec_theano.ravel()
compare_ff_rec()
РЕЗУЛЬТАТЫ:
loss:
FF: 0.968060314655
REC: 0.968060314655
gradients:
W
FF finite:
[ 0.23925304 -0.23907423 0.14013052 -0.14001131]
FF theano:
[ 0.23917811 -0.23917811 0.14011626 -0.14011627]
REC finite:
[ 0.23931265 -0.23907423 0.14024973 -0.14001131]
REC theano:
[ 1.77408110e-05 -1.77408110e-05 1.21677476e-05 -1.21677458e-05]
b
FF finite:
[ 0.00065565 -0.00047684]
FF theano:
[ 0.00058145 -0.00058144]
REC finite:
[ 0.00071526 -0.00047684]
REC theano:
[ 7.53380482e-06 -7.53380482e-06]
1 ответ
Проблема возникла из-за неинтуитивного (возможно) эффекта отсечения градиента-шага в BPTT, как описано здесь: https://groups.google.com/forum/.