В чем разница между жадным декодером RNN и декодером луча с k=1?

Учитывая вектор состояния, мы можем рекурсивно декодировать последовательность жадным образом, генерируя каждый выход последовательно, где каждое предсказание обусловлено предыдущим выходом. Недавно я прочитал статью, в которой описано использование поиска луча во время декодирования с размером луча 1 (k=1). Если мы сохраняем только лучший результат на каждом шаге, разве это не то же самое, что жадное декодирование, и не предлагает ничего из преимуществ, обычно предоставляемых поиском луча?

1 ответ

Решение

Наконец-то нашел ответ: размер луча 1 такой же, как у жадного поиска.

Из "Обобщения абстрагируемого предложения с помощью внимательных рекуррентных нейронных сетей":

"k refers to the size of the beam for generation; k = 1 implies greedy generation."
Другие вопросы по тегам