Как решить примеры изучения Grid в подкреплении, используя итерацию значений?
Я нахожу либо теорию, либо пример с питоном, который не подходит для начинающих. Мне просто нужно понять простой пример для понимания пошаговых итераций. Может ли кто-нибудь показать мне 1-ю и 2-ю итерации для изображения, которое я загрузил для итерации значения? Проблема мира сетки
1 ответ
Я рекомендую этот PDF-файл: http://www.cis.upenn.edu/~cis519/fall2015/lectures/14_ReinforcementLearning.pdf, в котором очень четко описана проблема мира сетки. И есть коды на GitHub:
https://github.com/kevlar1818/grid-world-rl
Надеюсь, что те помогают.
Помимо ссылок @holibut, которые очень полезны, я также рекомендую: https://github.com/JaeDukSeo/reinforcement-learning-an-introduction/blob/master/chapter03/GridWorld.py
Автор реализовал полную сеточную генерацию, представленную в книге. IMHO, это более простая реализация, и можно отлаживать циклы генерации сетки, чтобы четко видеть шаг за шагом, как вычисляются значения и как применяется уравнение Беллмана.