Deepmind Deep Q Network (DQN) 3D Свертка
Я читал статью о глубокой природе в сети DQN. Я почти все об этом, кроме одного. Я не знаю, почему никто не задавал этот вопрос раньше, но он все равно кажется мне немного странным.
Мой вопрос: вход для DQN - это изображение размером 84*84*4. Первый слой свертки состоит из 32 фильтров 8*8 с шагом 4. Я хочу знать, каков результат этой фазы свертки? Я имею в виду, что вход 3D, но у нас есть 32 фильтра, которые все 2D. Как третье измерение (которое соответствует 4 последним кадрам в игре) участвует в свертке?
Есть идеи? Спасибо амин
1 ответ
Вы можете представить себе третье измерение (представляющее последние четыре кадра) как каналы в сети.
Аналогичный сценарий происходит, если объединить три канала RGB для создания представления в оттенках серого. В этом случае вы выполняете каждую свертку (для каждого канала) отдельно и суммируете вклады, чтобы получить окончательную выходную карту объектов.
Ребята из DeepMind ссылаются на этот документ (" Какова лучшая многоступенчатая архитектура для распознавания объектов?"), Который может дать лучшее объяснение.