О tf.nn.softmax_cross_entropy_with_logits_v2
Я заметил что tf.nn.softmax_cross_entropy_with_logits_v2(labels, logits)
в основном выполняет 3 операции:
Примените softmax к логитам (y_hat) для их нормализации:
y_hat_softmax = softmax(y_hat)
,Вычислите кросс-энтропийную потерю:
y_cross = y_true * tf.log(y_hat_softmax)
Сумма по другому классу для экземпляра:
-tf.reduce_sum(y_cross, reduction_indices=[1])
Код, заимствованный здесь, демонстрирует это отлично.
y_true = tf.convert_to_tensor(np.array([[0.0, 1.0, 0.0],[0.0, 0.0, 1.0]]))
y_hat = tf.convert_to_tensor(np.array([[0.5, 1.5, 0.1],[2.2, 1.3, 1.7]]))
# first step
y_hat_softmax = tf.nn.softmax(y_hat)
# second step
y_cross = y_true * tf.log(y_hat_softmax)
# third step
result = - tf.reduce_sum(y_cross, 1)
# use tf.nn.softmax_cross_entropy_with_logits_v2
result_tf = tf.nn.softmax_cross_entropy_with_logits_v2(labels = y_true, logits = y_hat)
with tf.Session() as sess:
sess.run(result)
sess.run(result_tf)
print('y_hat_softmax:\n{0}\n'.format(y_hat_softmax.eval()))
print('y_true: \n{0}\n'.format(y_true.eval()))
print('y_cross: \n{0}\n'.format(y_cross.eval()))
print('result: \n{0}\n'.format(result.eval()))
print('result_tf: \n{0}'.format(result_tf.eval()))
Выход:
y_hat_softmax:
[[0.227863 0.61939586 0.15274114]
[0.49674623 0.20196195 0.30129182]]
y_true:
[[0. 1. 0.]
[0. 0. 1.]]
y_cross:
[[-0. -0.4790107 -0. ]
[-0. -0. -1.19967598]]
result:
[0.4790107 1.19967598]
result_tf:
[0.4790107 1.19967598]
Однако одна горячая метка включает в себя либо 0, либо 1, поэтому перекрестная энтропия для такого двоичного случая формулируется следующим образом: здесь и здесь:
Я пишу код для этой формулы в следующей ячейке, результат которой отличается от приведенного выше. Мой вопрос, какой из них лучше или прав? Имеет ли тензорный поток функцию для вычисления перекрестной энтропии в соответствии с этой формулой?
y_true = np.array([[0.0, 1.0, 0.0], [0.0, 0.0, 1.0]])
y_hat_softmax_from_tf = np.array([[0.227863, 0.61939586, 0.15274114],
[0.49674623, 0.20196195, 0.30129182]])
comb = np.dstack((y_true, y_hat_softmax_from_tf))
#print(comb)
print('y_hat_softmax_from_tf: \n{0}\n'.format(y_hat_softmax_from_tf))
print('y_true: \n{0}\n'.format(y_true))
def cross_entropy_fn(sample):
output = []
for label in sample:
if label[0]:
y_cross_1 = label[0] * np.log(label[1])
else:
y_cross_1 = (1 - label[0]) * np.log(1 - label[1])
output.append(y_cross_1)
return output
y_cross_1 = np.array([cross_entropy_fn(sample) for sample in comb])
print('y_cross_1: \n{0}\n'.format(y_cross_1))
result_1 = - np.sum(y_cross_1, 1)
print('result_1: \n{0}'.format(result_1))
выход
y_hat_softmax_from_tf:
[[0.227863 0.61939586 0.15274114]
[0.49674623 0.20196195 0.30129182]]
y_true:
[[0. 1. 0.]
[0. 0. 1.]]
y_cross_1:
[[-0.25859328 -0.4790107 -0.16574901]
[-0.68666072 -0.225599 -1.19967598]]
result_1:
[0.90335299 2.11193571]
1 ответ
Ваша формула верна, но она работает только для двоичной классификации. Демо-код в tenorflow классифицирует 3 класса. Это как сравнивать яблоки с апельсинами. Один из ответов, на которые вы ссылаетесь, тоже упоминает:
Эта формулировка часто используется для сети с одним выходом, предсказывающим два класса (обычно положительное членство в классе для 1 и отрицательное для выхода 0). В этом случае у меня может быть только одно значение - вы можете потерять сумму над i.
Разница между этими двумя формулами (двоичная кросс-энтропия по сравнению с полиномиальной кросс-энтропией) и тем, когда каждая из них применима, хорошо описана в этом вопросе.
Ответ на второй вопрос: да, есть такая функция, которая называется tf.nn.sigmoid_cross_entropy_with_logits
, Смотрите вышеупомянутый вопрос.