Как может сложность языковой модели быть между 0 и 1?

В Tensorflow я получаю выходные данные, такие как 0,602129 или 0,663941. Похоже, что значения ближе к 0 подразумевают лучшую модель, но кажется, что недоумение предполагается рассчитать как 2^ потери, что означает, что потери являются отрицательными. Это не имеет никакого смысла.

1 ответ

Решение

Это не имеет большого смысла для меня. Недоумение рассчитывается как 2^entropy, И энтропия от 0 до 1. Так что ваши результаты, которые < 1, не имеют смысла.

Я бы посоветовал вам взглянуть на то, как ваша модель вычисляет недоумение, потому что я подозреваю, что может быть ошибка.

Другие вопросы по тегам