Глубокая нейронная сеть в сочетании с qlearning
В качестве пространства состояний я использую совместные позиции с камеры Kinect, но думаю, что она будет слишком большой (25 суставов x 30 в секунду), чтобы просто подавать ее в SARSA или Qlearning.
Прямо сейчас я использую программу Kinect Gesture Builder, которая использует контролируемое обучение, чтобы связать движение пользователя с конкретными жестами. Но это требует контролируемой подготовки, от которой я бы хотел отойти. Я полагаю, что алгоритм может выявить определенные ассоциации между суставами, которые я бы сделал, когда сам классифицирую данные (например, руки вверх, шаг влево, шаг вправо).
Я думаю, что подача этих данных в глубокую нейронную сеть, а затем передача их в алгоритм обучения с подкреплением может дать мне лучший результат.
Недавно была статья по этому вопросу. https://www.cs.toronto.edu/~vmnih/docs/dqn.pdf
Я знаю, что у Accord.net есть и глубокие нейронные сети, и RL, но кто-нибудь объединял их вместе? Есть идеи?
1 ответ
Если я правильно понимаю из вашего вопроса + комментария, вам нужен агент, который выполняет дискретные действия с использованием визуального ввода (необработанные пиксели с камеры). Это похоже на то, что недавно сделали ребята из DeepMind, расширяя упомянутую вами статью. Посмотрите на это. Это более новая (и лучшая) версия игр Atari. Они также предоставляют официальную реализацию, которую вы можете скачать здесь. В Neon есть даже реализация, которая работает довольно хорошо.
Наконец, если вы хотите использовать непрерывные действия, вас может заинтересовать этот самый последний документ.
Напомним: да, кто-то объединил DNN + RL, это работает, и если вы хотите использовать необработанные данные камеры для обучения агента с RL, это определенно один из способов:)