Что означает размер партии на фоне глубокого обучения подкреплению?

Размер партии означает количество образцов, обученных нейронной работе в контролируемом обучении, однако, что означает значение размера партии на фоне обучения с подкреплением? Это относится и к образцам? Если да, что значат образцы на фоне обучения подкреплению?

1 ответ

Решение

Размер партии действительно означает то же самое в обучении с подкреплением по сравнению с обучением под наблюдением. Интуиция "пакетного обучения" (обычно в мини-пакете) состоит из двух частей:

  1. Из-за нехватки памяти аппаратного обеспечения может быть сложно выполнить пакетный градиентный спуск на более чем 1 000 000 точек данных.
  2. Чтобы рассчитать градиент потерь на подмножестве целых данных, то есть репрезентативных для всех данных. Если пакет, на котором вы тренируетесь на каждом шаге, не является репрезентативным для всех данных, на вашем этапе обновления будет смещение.

В контролируемом обучении, таком как нейронные сети, вы бы сделали мини-пакетный градиентный спуск, чтобы обновить свою нейронную сеть. При глубоком обучении с подкреплением вы тренируете одни и те же нейронные сети, поэтому они работают одинаково.

При контролируемом обучении ваша партия будет состоять из набора функций и соответствующих ярлыков. В глубоком обучении подкрепления это похоже. Это кортеж (состояние, действие, награда, состояние в момент времени t + 1, иногда выполняется).

Состояние: исходное состояние, которое описывает вашу среду

Действие: действие, которое вы выполнили в этом состоянии окружающей среды.

Награда: Награда сигнал, полученный после выполнения этого действия в этом состоянии

Состояние t+1: новое состояние, в которое вы перешли.

Готово: логическое значение, относящееся к концу вашей задачи. Например, если вы тренируете RL для игры в шахматы, готово будет либо выиграть, либо проиграть в шахматы.

Вы должны попробовать партию из этих (s, a, r, s(t+1), done) кортежей. Затем вы вводите его в правило обновления TD, обычно в виде:

Два Q являются значениями действия и рассчитываются путем передачи s, s(t+1) и a в вашу нейронную сеть.

Затем вы обновите свою нейронную сеть с Q в качестве метки.

Другие вопросы по тегам