Как накапливать потери по мини-партиям, а затем рассчитывать градиент

Question

Как накапливать потери по мини-партиям, а затем рассчитывать градиент

Мой главный вопрос: усреднение потерь - это то же самое, что усреднение градиента, и как мне накапливать потери по мини-партиям, а затем вычислять мой градиент?

Я пытался реализовать градиент политики в Tensorflow и столкнулся с проблемой, при которой я не могу сразу передать все свои игровые состояния в свою сеть, а затем обновить. Проблема заключается в том, что если я уменьшу размер своей сети, затем потренируюсь на всех кадрах одновременно и возьму среднее значение потери, тогда она начнет сходиться. Но если я накапливаю градиенты по мини-партиям, то усредняю их, мои градиенты взрываются, и я переполняю свои веса.

Любая помощь или понимание будут очень благодарны.

Имейте в виду также, что я впервые задаю вопрос здесь.

2

python tensorflow reinforcement-learning policy-gradient-descent tensorflow-gradient

Источник

user9963713 17 мар '19 в 16:59

1 ответ

Другие вопросы по тегам python tensorflow reinforcement-learning policy-gradient-descent tensorflow-gradient

user5154274 17 мар '19 в 22:09 2019-03-17 22:09 · Answer 1 · 2019-03-17 22:09

Что вы можете сделать, это накапливать градиенты после каждой мини-партии, а затем обновлять веса на основе средних градиентов. Рассмотрим следующий простой случай подгонки 50 гауссовых шариков к однослойному персептрону:

from sklearn.datasets import make_blobs
import tensorflow as tf
import numpy as np

x_train, y_train = make_blobs(n_samples=50,
                              n_features=2,
                              centers=[[1, 1], [-1, -1]],
                              cluster_std=0.5)

with tf.name_scope('x'):
    x = tf.placeholder(tf.float32, [None, 2])
    y = tf.placeholder(tf.int32, [None])

with tf.name_scope('layer'):
    logits = tf.layers.dense(x,
                             units=2,
                             kernel_initializer=tf.contrib.layers.xavier_initializer())
with tf.name_scope('loss'):
    xentropy = tf.nn.sparse_softmax_cross_entropy_with_logits(labels=y, logits=logits)
    loss_op = tf.reduce_mean(xentropy)

minimize() метод вызова оптимизаторов тензорного потока compute_gradients() а потом apply_gradients(), Вместо вызова minimize()Я собираюсь вызвать оба метода напрямую. Во-первых, чтобы получить градиенты, которые мы называем compute_gradients() (который возвращает список кортежей grads_and_vars) и для apply_gradients() вместо градиентов я собираюсь скормить заполнители для будущих средних градиентов:

optimizer = tf.train.GradientDescentOptimizer(learning_rate=0.01)
grads_and_vars = optimizer.compute_gradients(loss_op)
grads = [g for g, v in grads_and_vars]

# placeholders for gradients averages
placeholder_grads = [tf.placeholder(tf.float32, [None] + g.get_shape().as_list())
                     for g in grads]

new_grads_and_vars = [(tf.reduce_mean(p, axis=0), gv[1])
                      for p, gv in zip(placeholder_grads, grads_and_vars)]

apply_grads_op = optimizer.apply_gradients(new_grads_and_vars)

Во время мини-пакетов мы только вычисляем потери (вы также можете накапливать потери - добавьте в некоторый список и затем вычислите среднее значение) и градиенты, не применяя градиенты к весам. В конце каждой эпохи мы выполняем apply_grads_op работа при подаче накопленных градиентов на заполнители:

data = tf.data.Dataset.from_tensor_slices({'x':x_train, 'y':y_train}).batch(10)
iterator = data.make_initializable_iterator()
n_epochs = 2
with tf.Session() as sess:
    _ = sess.run([tf.global_variables_initializer(), iterator.initializer])
    next_batch = iterator.get_next()
    for epoch in range(n_epochs):
        epoch_grads = []
        while True:
            try:
                batch = sess.run(next_batch)
                evaled = sess.run([loss_op] + grads,
                                  feed_dict={x:batch['x'], y:batch['y']})
                epoch_grads.append(evaled[1:])
                print('batch loss:', evaled[0])
            except tf.errors.OutOfRangeError:
                _ = sess.run(iterator.initializer)
                feed_dict = {p:[g[i] for g in epoch_grads]
                             for i, p in enumerate(placeholder_grads)}
                _ = sess.run(apply_grads_op, feed_dict=feed_dict)

                break