Что такое фи в алгоритме Deep Q-learning?
Я пытаюсь создать обучающую футбольную игру с нуля с помощью Java, и я пытаюсь реализовать усиленное обучение с помощью алгоритма глубокого обучения Google DeepMind (хотя без сверточной сети). Я уже построил нейронную сеть и Q-learning, и теперь я пытаюсь их обобщить, но есть кое-что, чего я не понимаю в этом коде.
- Разве Q-значения обычно не инициализируются нулями вместо случайных значений? Или это означает вес нейронной сети (строка 2)
- Что подразумевается под
предварительно обработанная последовательность Φ1 = Φ (s1) (строка 4)
Я просто не мог понять, что означает Φ в этом алгоритме.
1 ответ
Решение
- Это относится к весам нейронной сети
- Φ(s) относится к карте / этапу предварительной обработки, Φ является сокращением для Φ(s1). Каждый кадр имеет размер 210x160 пикселей x 128 цветов. Некоторая предварительная обработка использовалась в статье. Они убирают мерцание, используют только яркость, масштабируют и складывают. Взгляните на раздел "Методы" в статье 2015 года.