Недоумение для (не имеющего состояния) трансформатора - почему все еще справедливо сравнивать с RNN?
Мне ясно, как вычислить недоумение для RNN, поскольку RNN являются моделью с отслеживанием состояния.
В общем, учитывая очень длинный документ, я считаю, что нам нужно: 1. разбить документ на последовательность фрагментов и вычислить потерю кросс-энтропии для каждого фрагмента, прежде чем взять среднее значение для всех фрагментов и взять экспоненту.
Поскольку RNN являются моделью с отслеживанием состояния, мы можем использовать то, что у нас есть из последнего скрытого состояния RNN относительно предыдущего фрагмента, чтобы инициализировать скрытое состояние для RNN, который обрабатывает следующий фрагмент. Из-за этого я думаю, что RNN вычисляет "правильную" сложность для длинного документа.
Между тем Transformer не является моделью с отслеживанием состояния. По этой причине, я полагаю, не существует таких вещей, как "передача" скрытого состояния из предыдущего фрагмента в следующий фрагмент. По этой причине я думаю, что Трансформеры на самом деле не рассчитывают сложности для длинного документа. Он вычисляет нечто иное.
Так почему же все же справедливо сравнить две модели сложности для длинных документов? Кроме того, если я создам RNN без сохранения состояния (например, как в Keras, я могу установить stateful=False), будет ли недоумение, которое вычисляет модель без сохранения состояния без "передачи" скрытого состояния, нужным нам затруднением? Это сопоставимо с RNN с сохранением состояния?