Количество значений Q для сети обучения с глубоким подкреплением

В настоящее время я занимаюсь разработкой сети обучения с глубоким подкреплением, однако у меня есть небольшое сомнение относительно количества q-значений, которые я буду иметь на выходе NN. У меня будет всего 150 q-значений, что лично мне кажется чрезмерным. Я прочитал на нескольких бумагах и книгах, что это может быть проблемой. Я знаю, что это будет зависеть от типа NN, который я построю, но вы думаете, ребята, что число значений q слишком велико? я должен уменьшить это?

1 ответ

Решение

Нет общего принципа, что такое "слишком много". Все зависит исключительно от проблемы и производительности, которую можно получить в процессе обучения. В частности, количество действий не должно иметь значения, если эффективна внутренняя параметризация Q(a, s). Чтобы привести некоторый пример, давайте предположим, что нейронная сеть на самом деле имеет форму NN(a, s) = Q(a, s), другими словами, она принимает действие как вход вместе с состоянием и выводит значение Q. Если такая архитектура может быть обучена рассматриваемой проблеме, то она сможет масштабироваться до больших пространств действий; с другой стороны, если нейронная сеть в основном имеет независимый выход за действие, что-то вроде NN(s)[a] = Q(a, s), то многие действия могут привести к относительно редкому сигналу обучения для модели и, следовательно, к медленному конвергенция.

Поскольку вы спрашиваете об уменьшении пространства действий, кажется, что настоящая проблема имеет сложное управление (может быть, это непрерывная область управления?), И вы ищете некоторую дискретизацию, чтобы упростить ее изучение. Если дело обстоит именно так, вам придется следовать типичному методу проб и ошибок - попробуйте использовать простое пространство действий, наблюдать за динамикой, а если результаты неудовлетворительные, - усложните задачу. Это позволяет делать итеративные улучшения, а не идти в противоположном направлении - начиная со слишком сложной настройки, чтобы получить какие-либо результаты, и затем уменьшая ее, не зная, каковы "разумные значения".

Другие вопросы по тегам