Прогнозы при дополненных последовательностях, точность маскирования / кросс-энтропия
Я знаю, что это не вопрос кодирования, но при необходимости я могу предоставить некоторые, чтобы доказать свою точку зрения. Я также знаю, что об этом много спрашивали. Я просто очень запутался.
Когда последовательности дополняются до максимального временного шага, мы вводим значение для sequence_length
аргумент, который представляет собой список, который имеет длину каждой последовательности, когда мы используем dynamic_rnn
, Что я не понимаю, что, как утверждает этот онлайн-учебник, почему мы не маскируем ошибку? (даже если мы вычислили seq_len снаружи с помощью функции или вручную, а затем передали его через заполнитель.). При вычислении кросс-энтропии мы также должны делить ее на фактическое количество выборок, это правильно? поэтому, если мы не замаскируем это, у нас будет неправильная фигура.
Это похоже на расчет точности. Чтобы посчитать количество правильных, мы хотим считать дополненные шаги как неправильные. Кроме того, для того, чтобы вычислить точность, мы хотим разделить количество необработанных временных шагов вместо того, чтобы брать среднее значение. Мы также должны использовать маскировку здесь, насколько я понимаю.
Другая проблема, которую я имею, касается масштабируемых логитов, то есть прогнозов. Логиты дополненных последовательностей, которые все равны 0, будут ненулевыми при масштабировании через слой softmax. Это повлияет на все, начиная от точности до кросс-энтропии. Я не могу найти прямо сейчас, но здесь был один ответ на stackru, утверждающий, что кормление sequence_length
аргумент будет достаточно для всего этого, что не звучит правильно для меня.
Надеюсь, я дал понять, и я буду признателен за любую дискуссию по этому вопросу.