Как решить примеры изучения Grid в подкреплении, используя итерацию значений?

Question

Как решить примеры изучения Grid в подкреплении, используя итерацию значений?

Я нахожу либо теорию, либо пример с питоном, который не подходит для начинающих. Мне просто нужно понять простой пример для понимания пошаговых итераций. Может ли кто-нибудь показать мне 1-ю и 2-ю итерации для изображения, которое я загрузил для итерации значения? Проблема мира сетки

3

reinforcement-learning value-iteration

Источник

user9401069 03 мар '18 в 12:15

1 ответ

Другие вопросы по тегам reinforcement-learning value-iteration

user3163893 30 май '18 в 07:03 2018-05-30 07:03 · Answer 1 · 2018-05-30 07:03

Я рекомендую этот PDF-файл: http://www.cis.upenn.edu/~cis519/fall2015/lectures/14_ReinforcementLearning.pdf, в котором очень четко описана проблема мира сетки. И есть коды на GitHub:

https://github.com/kevlar1818/grid-world-rl

https://github.com/dennybritz/reinforcement-learning/blob/master/DP/Policy%20Evaluation%20Solution.ipynb

Надеюсь, что те помогают.

user3558051 07 сен '20 в 19:42 2020-09-07 19:42 · Answer 2 · 2020-09-07 19:42

Помимо ссылок @holibut, которые очень полезны, я также рекомендую: https://github.com/JaeDukSeo/reinforcement-learning-an-introduction/blob/master/chapter03/GridWorld.py

Автор реализовал полную сеточную генерацию, представленную в книге. IMHO, это более простая реализация, и можно отлаживать циклы генерации сетки, чтобы четко видеть шаг за шагом, как вычисляются значения и как применяется уравнение Беллмана.