В чем разница между жадным декодером RNN и декодером луча с k=1?
Учитывая вектор состояния, мы можем рекурсивно декодировать последовательность жадным образом, генерируя каждый выход последовательно, где каждое предсказание обусловлено предыдущим выходом. Недавно я прочитал статью, в которой описано использование поиска луча во время декодирования с размером луча 1 (k=1). Если мы сохраняем только лучший результат на каждом шаге, разве это не то же самое, что жадное декодирование, и не предлагает ничего из преимуществ, обычно предоставляемых поиском луча?
1 ответ
Решение
Наконец-то нашел ответ: размер луча 1 такой же, как у жадного поиска.
Из "Обобщения абстрагируемого предложения с помощью внимательных рекуррентных нейронных сетей":
"k refers to the size of the beam for generation; k = 1 implies greedy generation."