Как обновляются веса для сетей с n-кортежами?
В настоящее время я читаю изучение временных различий сетей N-Tuple для игры 2048. Я пытаюсь реализовать свою собственную сеть из n-кортежей, но я не понимаю, как обновляются веса / значения из таблицы поиска (LUT).
В документе говорится, что V обновляется в соответствии с V(s) ← V(s) + α(r + V(s'') - V (s)), где V аппроксимируется V = sum(LUT_i), где LUT_i является значением i-го n-кортежа из справочной таблицы с учетом текущего состояния. V - сумма значений, взятых из таблицы. Я не понимаю, как обновляются значения в самой LUT.
Любое руководство ценится - спасибо!