stop_gradient в тензорном потоке
Мне интересно, останавливает ли tf.stop_gradient вычисление градиента только для данной операции или останавливает обновление входных данных tf.variable? У меня есть следующая проблема: во время вычисления прямого пути в MNIST я хотел бы выполнить набор операций над весами (скажем, от W до W*), а затем сделать математику с входными данными. Однако я хотел бы исключить эти операции из обратного пути. Я хочу, чтобы только dE/dW вычислялись во время тренировки с обратным распространением. Код, который я написал, препятствует обновлению W. Не могли бы вы помочь мне понять, почему? Если бы это были переменные, я понимаю, что я должен установить их обучаемое свойство равным false, но это операции с весами. Если stop_gradient не может быть использован для этой цели, то как мне построить два графика, один для прямого пути, а другой для обратного распространения?
def build_layer(inputs, fmap, nscope,layer_size1,layer_size2, faulty_training):
with tf.name_scope(nscope):
if (faulty_training):
## trainable weight
weights_i = tf.Variable(tf.truncated_normal([layer_size1, layer_size2],stddev=1.0 / math.sqrt(float(layer_size1))),name='weights_i')
## Operations on weight whose gradient should not be computed during backpropagation
weights_fx_t = tf.multiply(268435456.0,weights_i)
weight_fx_t = tf.stop_gradient(weights_fx_t)
weights_fx = tf.cast(weights_fx_t,tf.int32)
weight_fx = tf.stop_gradient(weights_fx)
weights_fx_fault = tf.bitwise.bitwise_xor(weights_fx,fmap)
weight_fx_fault = tf.stop_gradient(weights_fx_fault)
weights_fl = tf.cast(weights_fx_fault, tf.float32)
weight_fl = tf.stop_gradient(weights_fl)
weights = tf.stop_gradient(tf.multiply((1.0/268435456.0),weights_fl))
##### end transformation
else:
weights = tf.Variable(tf.truncated_normal([layer_size1, layer_size2],stddev=1.0 / math.sqrt(float(layer_size1))),name='weights')
biases = tf.Variable(tf.zeros([layer_size2]), name='biases')
hidden = tf.nn.relu(tf.matmul(inputs, weights) + biases)
return weights,hidden
Для обучения я использую оптимизатор градиентного спуска тензорного потока.
optimizer = tf.train.GradientDescentOptimizer(learning_rate)
global_step = tf.Variable(0, name='global_step', trainable=False)
train_op = optimizer.minimize(loss, global_step=global_step)
1 ответ
Остановить градиент предотвратит продолжение обратного распространения за этим узлом на графике. Ваш код не имеет пути от weights_i к потере, кроме того, который проходит через weights_fx_t, где градиент останавливается. Именно поэтому weights_i не обновляется во время тренировки. Вам не нужно ставить stop_gradient после каждого шага. Использование только один раз остановит обратное распространение там.
Если stop_gradient
не делает то, что вы хотите, то вы можете получить градиенты, выполнив tf.gradients
и вы можете написать свое собственное обновление оп с помощью tf.assign
, Это позволит вам изменить градиенты, как вы хотите.