TensorFlow: параметры не обновляются при обучении

Я реализую модель классификации с помощью TensorFlow

Проблема, с которой я сталкиваюсь, заключается в том, что мои веса и ошибки не обновляются, когда я выполняю этап обучения. В результате моя сеть продолжает возвращать те же результаты.

Я разработал свою модель на основе примера MNIST с веб-сайта TensorFlow.

import numpy as np
import tensorflow as tf
sess = tf.InteractiveSession()

#load dataset
dataset = np.loadtxt('char8k.txt', dtype='float', comments='#', delimiter=",")
Y = np.asmatrix( dataset[:,0] ) 
X = np.asmatrix( dataset[:,1:1201] )

m = 11527
labels = 26

# y is update to 11527x26
Yt = np.zeros((m,labels))

for i in range(0,m):
    index = Y[0,i] - 1
    Yt[i,index]= 1

Y = Yt
Y = np.asmatrix(Y)

#------------------------------------------------------------------------------

#graph settings

x = tf.placeholder(tf.float32, shape=[None, 1200])
y_ = tf.placeholder(tf.float32, shape=[None, 26])


Wtest = tf.Variable(tf.truncated_normal([1200,26], stddev=0.001))
W = tf.Variable(tf.truncated_normal([1200,26], stddev=0.001))
b = tf.Variable(tf.zeros([26]))
sess.run(tf.initialize_all_variables())

y = tf.nn.softmax(tf.matmul(x,W) + b)

cross_entropy = -tf.reduce_sum(y_*tf.log(y))

train_step = tf.train.GradientDescentOptimizer(0.01).minimize(cross_entropy)
Wtest = W


for i in range(10):
  print("iteracao:")
  print(i)
  Xbatch = X[np.random.randint(X.shape[0],size=100),:]
  Ybatch = Y[np.random.randint(Y.shape[0],size=100),:]
  train_step.run(feed_dict={x: Xbatch, y_: Ybatch})
  print("atualizacao de pesos")  
  print(Wtest==W)#monitora atualizaçao dos pesos

  correct_prediction = tf.equal(tf.argmax(y,1), tf.argmax(y_,1))
  accuracy = tf.reduce_mean(tf.cast(correct_prediction, tf.float32))
  print("precisao:Y")
  print accuracy.eval(feed_dict={x: X, y_: Y})
  print(" ")
  print(" ")

1 ответ

Проблема, вероятно, возникает из-за того, как вы инициализируете матрицу весов, W, Если он инициализирован для всех нулей, все нейроны будут следовать одному и тому же градиенту на каждом шаге, что приведет к тому, что сеть не будет обучена. Замена линии

W = tf.Variable(tf.zeros([1200,26]))

... с чем-то вроде

W = tf.Variable(tf.truncated_normal([1200,26], stddev=0.001))

... должен заставить его начать обучение.

Этот вопрос на сайте CrossValidated имеет хорошее объяснение того, почему вы не должны инициализировать все свои веса до нуля.

Другие вопросы по тегам