Определить MDP по видимым переходам

Следующие переходы были замечены в процессе принятия решений по Маркову. попытаться определить это

 R  A  S′ S

 0  U  C  B
-1  L  E  C
 0  D  C  A
-1  R  E  C
 0  D  C  A
+1  R  D  C
 0  U  C  B
+1  R  D  C

Мне нужно найти состояния, переходы, награды и вероятность переходов. Я решил все, кроме вероятностей, и я не знаю, как их вычислить. Если кто-то может помочь, мне просто нужно знать, с чего начать

1 ответ

Решение

Для государства B, действие U всегда приводит к новому состоянию C, Так, P(C|B,U)=1 (Вы также можете утверждать, что P(C|B)=1). P(D|C,R)=2/3 поскольку в двух из трех случаев действие R в состоянии C привело к D,