Как решить примеры изучения Grid в подкреплении, используя итерацию значений?

Я нахожу либо теорию, либо пример с питоном, который не подходит для начинающих. Мне просто нужно понять простой пример для понимания пошаговых итераций. Может ли кто-нибудь показать мне 1-ю и 2-ю итерации для изображения, которое я загрузил для итерации значения? Проблема мира сетки

1 ответ

Я рекомендую этот PDF-файл: http://www.cis.upenn.edu/~cis519/fall2015/lectures/14_ReinforcementLearning.pdf, в котором очень четко описана проблема мира сетки. И есть коды на GitHub:

https://github.com/kevlar1818/grid-world-rl

https://github.com/dennybritz/reinforcement-learning/blob/master/DP/Policy%20Evaluation%20Solution.ipynb

Надеюсь, что те помогают.

Помимо ссылок @holibut, которые очень полезны, я также рекомендую: https://github.com/JaeDukSeo/reinforcement-learning-an-introduction/blob/master/chapter03/GridWorld.py

Автор реализовал полную сеточную генерацию, представленную в книге. IMHO, это более простая реализация, и можно отлаживать циклы генерации сетки, чтобы четко видеть шаг за шагом, как вычисляются значения и как применяется уравнение Беллмана.

Другие вопросы по тегам