Deepmind Deep Q Network (DQN) 3D Свертка

Я читал статью о глубокой природе в сети DQN. Я почти все об этом, кроме одного. Я не знаю, почему никто не задавал этот вопрос раньше, но он все равно кажется мне немного странным.

Мой вопрос: вход для DQN - это изображение размером 84*84*4. Первый слой свертки состоит из 32 фильтров 8*8 с шагом 4. Я хочу знать, каков результат этой фазы свертки? Я имею в виду, что вход 3D, но у нас есть 32 фильтра, которые все 2D. Как третье измерение (которое соответствует 4 последним кадрам в игре) участвует в свертке?

Есть идеи? Спасибо амин

1 ответ

Решение

Вы можете представить себе третье измерение (представляющее последние четыре кадра) как каналы в сети.

Аналогичный сценарий происходит, если объединить три канала RGB для создания представления в оттенках серого. В этом случае вы выполняете каждую свертку (для каждого канала) отдельно и суммируете вклады, чтобы получить окончательную выходную карту объектов.

Ребята из DeepMind ссылаются на этот документ (" Какова лучшая многоступенчатая архитектура для распознавания объектов?"), Который может дать лучшее объяснение.

Другие вопросы по тегам