Как приблизить простое дополнение, используя Caffe?
Я пробую очень простой сценарий, используя caffe, но не получил ожидаемого результата. Вот код, который я использовал для обучения модели:
solver = caffe.get_solver(solver_file)
net = solver.net
#sys.exit(0)
size = 100000
for i in xrange(size):
x1 = float(random.randint(0,1000))
x2 = float(random.randint(0,1000))
y = float(x1 + x2 + 1000)
a = np.zeros(shape=(1,1,2))
a[0][0][0] = x1
a[0][0][1] = x2
b = np.zeros(shape=(1,1,1))
b[0][0][0] = y
solver.net.blobs['data'].data[...] = a
solver.net.blobs['fc'].data[...] = b
solver.step(1)
solver.net.save(pretrained_file)
Вот решатель.prototxt:
net: "train_val.prototxt"
base_lr: 0.001
lr_policy: "step"
gamma: 0.0001
#power: 0.75
test_interval: 2500
test_iter: 100
stepsize: 200000
display: 200
max_iter: 40000
momentum: 0.9
weight_decay: 0.0005
snapshot: 0
#test_initialization: false
snapshot_prefix: "test_model"
#snapshot_after_train: false
solver_mode: GPU
Вот этот train_val.prototxt
name: "test1"
layer {
name: "train_data"
type: "HDF5Data"
top: "data"
top: "label"
include {
phase: TRAIN
}
hdf5_data_param {
source: "train_path.txt"
shuffle: true
batch_size: 10
}
}
layer {
name: "train_data"
type: "HDF5Data"
top: "data"
top: "label"
include {
phase: TEST
}
hdf5_data_param {
source: "test_path.txt"
batch_size: 1
}
}
layer {
name: "fc1"
type: "InnerProduct"
bottom: "data"
top: "fc1"
inner_product_param {
num_output: 16
weight_filler {
type: "gaussian"
std: 0.01
}
bias_filler {
type: "constant"
value: 0.1
}
}
}
layer {
bottom: "fc1"
top: "fc1"
name: "relu1"
type: "ReLU"
}
layer {
name: "fc2"
type: "InnerProduct"
bottom: "fc1"
top: "fc2"
inner_product_param {
num_output: 16
weight_filler {
type: "gaussian"
std: 0.01
}
bias_filler {
type: "constant"
value: 0.1
}
}
}
layer {
bottom: "fc2"
top: "fc2"
name: "relu2"
type: "ReLU"
}
layer {
name: "fc"
type: "InnerProduct"
bottom: "fc2"
top: "fc"
inner_product_param {
num_output: 1
weight_filler {
type: "gaussian"
std: 0.01
}
bias_filler {
type: "constant"
value: 0.1
}
}
}
layer {
name: "loss"
type: "EuclideanLoss"
bottom: "fc"
bottom: "label"
top: "loss"
}
Обратите внимание, что я создал слой Hdf5Data, но не использовал его во время обучения (я непосредственно вводил сеть). Я также пытался использовать только слой Hdf5Data, но это не имеет значения.
После 100000 итераций потери все еще очень велики:
I0717 20:04:24.367807 28873 solver.cpp:219] Iteration 99000 (5882.35 iter/s, 0.034s/200 iters), loss = 74512.1
I0717 20:04:24.367841 28873 solver.cpp:238] Train net output #0: loss = 74512.1 (* 1 = 74512.1 loss)
I0717 20:04:24.367856 28873 sgd_solver.cpp:105] Iteration 99000, lr = 0.001
I0717 20:04:24.402856 28873 solver.cpp:219] Iteration 99200 (5714.29 iter/s, 0.035s/200 iters), loss = 80065
I0717 20:04:24.402890 28873 solver.cpp:238] Train net output #0: loss = 80065 (* 1 = 80065 loss)
I0717 20:04:24.402905 28873 sgd_solver.cpp:105] Iteration 99200, lr = 0.001
I0717 20:04:24.437564 28873 solver.cpp:219] Iteration 99400 (5882.35 iter/s, 0.034s/200 iters), loss = 90577.7
I0717 20:04:24.437598 28873 solver.cpp:238] Train net output #0: loss = 90577.7 (* 1 = 90577.7 loss)
I0717 20:04:24.437613 28873 sgd_solver.cpp:105] Iteration 99400, lr = 0.001
I0717 20:04:24.472441 28873 solver.cpp:219] Iteration 99600 (5882.35 iter/s, 0.034s/200 iters), loss = 116119
I0717 20:04:24.472476 28873 solver.cpp:238] Train net output #0: loss = 116119 (* 1 = 116119 loss)
I0717 20:04:24.472491 28873 sgd_solver.cpp:105] Iteration 99600, lr = 0.001
I0717 20:04:24.507279 28873 solver.cpp:219] Iteration 99800 (5882.35 iter/s, 0.034s/200 iters), loss = 55599.9
I0717 20:04:24.507313 28873 solver.cpp:238] Train net output #0: loss = 55599.9 (* 1 = 55599.9 loss)
I0717 20:04:24.507328 28873 sgd_solver.cpp:105] Iteration 99800, lr = 0.001
Я сделал простой тест, чтобы увидеть вывод сети:
def get_output(net, in_):
out = net.forward(data=in_)
out_ = out[net.outputs[0]]
return out_
def main(args):
model_file = "deploy.prototxt"
net = caffe.Net(model_file, pretrained_file, caffe.TEST)
ins_ = []
in1_ = np.zeros((1, 1, 2), dtype=np.float32)
in1_[0][0][0] = 14
in1_[0][0][1] = 77
ins_.append(in1_)
in2_ = np.zeros((1, 1, 2), dtype=np.float32)
in2_[0][0][0] = 100
in2_[0][0][1] = 200
ins_.append(in2_)
outs = get_outputs(net, ins_)
print outs[0]
print outs[1]
Файл deploy.prototxt находится здесь:
name: "test1"
input: "data"
input_dim: 1
input_dim: 1
input_dim: 1
input_dim: 2
layer {
name: "fc1"
type: "InnerProduct"
bottom: "data"
top: "fc1"
inner_product_param {
num_output: 16
}
}
layer {
bottom: "fc1"
top: "fc1"
name: "relu1"
type: "ReLU"
}
layer {
name: "fc2"
type: "InnerProduct"
bottom: "fc1"
top: "fc2"
inner_product_param {
num_output: 16
}
}
layer {
bottom: "fc2"
top: "fc2"
name: "relu2"
type: "ReLU"
}
layer {
name: "fc"
type: "InnerProduct"
bottom: "fc2"
top: "fc"
inner_product_param {
num_output: 1
}
}
Выход:
[[[ 14. 77.]]]
[[[ 100. 200.]]]
[[ 1981.43566895]]
[[ 1981.43566895]]
Очень странно, что два разных входа дают одинаковые выходы. Когда я смотрю на net.blobs['fc1'], это все нули. Это объясняет, что два дают одинаковые результаты.
Вес слоя fc1 выглядит вполне нормально:
>>> net.params['fc1'][0].data
array([[ -1.78788041e+12, -1.80693867e+12],
[ -4.77027521e-03, -1.57534312e-02],
[ -2.85808116e-01, -1.03346086e+00],
[ -4.11485549e+12, -4.15872765e+12],
[ -3.97690558e+00, -6.56769896e+00],
[ -8.34569149e-03, -1.17674023e-02],
[ -2.66584531e+13, -2.69423382e+13],
[ -2.10294223e+00, -2.69863915e+00],
[ -1.29736237e+11, -1.31118014e+11],
[ -2.26515858e-03, -7.97832850e-03],
[ -2.58903159e-03, -1.29228756e-02],
[ -1.61415696e+00, -2.00974083e+00],
[ -7.97582499e-04, -3.23565165e-03],
[ -9.69606861e-02, -5.83252907e-01],
[ -3.16640830e+00, -4.80933285e+00],
[ -1.10790539e+00, -1.99139881e+00]], dtype=float32)
Что я упустил, чтобы правильно обучить эту сеть?