Максимальная маржа потерь в Керасе / Теано

Я хочу обучить нейронную сеть в Керасе (с theano в качестве бэкэнда) с функцией потери максимального запаса, используя одну отрицательную выборку на положительную выборку:

 max(0,1 -pos_score +neg_score)

У меня есть нейронная сеть, которая принимает два аргумента i а также j и вернуть счет base(i,j), Для данного iУ меня есть положительный образец j и отрицательный образец k, Итак, я хочу вычислить следующее:

 max(0, 1 - base(i, j) + base(i, k))

На абстрактном уровне мой код выглядит следующим образом:

i = Input(...) # d=100
j = Input(...) # d=300
k = Input(...) # d=300

i_vec = Sequential()
i_vec.add(Dense(20, input_dim=100))
j_vec = Sequential()
j_vec.add(Dense(30, input_dim=300))

base = Sequential()
base.add(Merge([i_vec, j_vec], mode='concat')
# Here goes definition of the base network
base.add(Dense(output_dim=1, bias=False))

pos = base([i, j])
neg = base([i, k])

def custom_loss(y_true, y_pred):
    return K.maximum(0, 1 - y_pred[0] + y_pred[1])

model = Model(input=[i,j,k], output=[pos, neg])
# Shape of I=(1000,100), J and K=(1000,300), XX=(1000,)
model.fit([I, J, K], [XX,XX], nb_epoch=10)

Обратите внимание, что XX бесполезен во время обучения.

Во время выполнения кода я получил следующую ошибку:

ValueError: GpuElemwise. Output dimension mismatch. Output 0 (indices start at 0), working inplace on input 0, has shape[0] == 1, but the output's size on that axis is 32.
Apply node that caused the error: GpuElemwise{Composite{(i0 * (i1 * i2))}}[(0, 0)](GpuElemwise{Composite{Cast{float32}(EQ(i0, i1))}}[(0, 0)].0, GpuElemwise{Composite{(i0 / (i1 * i2))}}[(0, 0)].0, GpuFromHost.0)
Toposort index: 83
Inputs types: [CudaNdarrayType(float32, vector), CudaNdarrayType(float32, (True,)), CudaNdarrayType(float32, vector)]
Inputs shapes: [(1,), (1,), (32,)]
Inputs strides: [(0,), (0,), (1,)]
Inputs values: [CudaNdarray([ 1.]), CudaNdarray([ 1.]), 'not shown']
Outputs clients: [[GpuIncSubtensor{InplaceInc;int64}(GpuIncSubtensor{Inc;int64}.0, GpuElemwise{Composite{(i0 * (i1 * i2))}}[(0, 0)].0, Constant{1}), GpuElemwise{neg,no_inplace}(GpuElemwise{Composite{(i0 * (i1 * i2))}}[(0, 0)].0)]]

Я думаю, что проблема заключается в вычислении функции потерь.

Примечание: я пытался с XX как необработанный вектор и вектор столбца. Но ошибка остается такой же.

Решение для той же проблемы с TensorFlow, что и для бэкэнда, доступно здесь и здесь.


Изменить 1:

Изменение функции потерь, как показано ниже, работает (я имею в виду, что она работает без ошибок). Но ни я не знаю почему, ни я не знаю о правильности нового кода.

def custom_loss(y_true, y_pred):
    return K.sum(K.maximum(0, 1 - y_pred[0] + y_pred[1]))

1 ответ

Решение

Это похоже на K.maximum(0, 1 - y_pred[0] + y_pred[1]) не дает скалярное значение потерь, а скорее ошибку на выборку. Вам необходимо усреднить потери для всей мини-партии. Таким образом, используя K.sum уменьшить потерю для каждой пробы до скалярной потери для каждой мини-партии. Я полагаю, было бы более точным в использовании mean вместо sum (если вы решите изменить размер партии).

Другие вопросы по тегам