Что означает строка значений в POMDP?
Я изучаю формат файла POMDP и следую этой и многим другим ссылкам. Я все понял, но не могу понять, что означает Значение во второй строке файла. Его значения - вознаграждение или стоимость. Не могу найти ответ в другом месте. Запутаться, потому что должна быть возможность иметь затраты и вознаграждения в одном документе, нет? Почему я должен указать один из них? Также нигде в остальной части файла значение не используется.
1 ответ
В POMDP вы можете использовать либо вознаграждение, либо затраты, чтобы определить цель обучения. Единственное отличие состоит в том, что в первом случае вы пытаетесь максимизировать функцию стоимости, тогда как для стоимости вы пытаетесь минимизировать функцию стоимости.
В файле POMDP вы можете определить, какой вы используете:
values: [ reward, cost ]
Когда решатель читает файл POMDP, он будет интерпретировать значения, определенные с R:
в качестве награды или стоимости.