Описание тега temporal-difference

Обучение временной разнице (TD) - это метод прогнозирования, который в основном используется для решения задачи обучения с подкреплением.

Temporal-Difference (TD) - это комбинация идей Монте-Карло и идей динамического программирования. Приближая текущую политику оценки, TD связано с динамическим программированием. Кроме того, отбор проб окружающей среды в соответствии с определенной политикой связан с методами Монте-Карло. Временная разница - это форма самонастройки, как показано в следующем примере: Предположим, вы хотите предсказать погоду на субботу, и у вас есть некоторая модель, которая предсказывает погоду в субботу с учетом погоды каждого дня недели. В стандартном случае вы должны подождать до субботы, а затем настроить все свои модели. Однако когда, например, пятница, вы должны иметь довольно хорошее представление о погоде в субботу - и, таким образом, иметь возможность изменить, скажем, модель понедельника до наступления субботы.

Алгоритм TD также привлек внимание в области нейробиологии. TD(лямбда) создан Р. Саттоном. Хорошая отправная точка, чтобы узнать о временном разностях можно найти здесь.