Лучший способ назначить штраф в нейронных сетях?
У меня есть структура данных ориентированного взвешенного графа, где вес между, скажем, узлом A и узлом B говорит о том, сколько раз был выполнен переход от узла A к узлу B.
Целью структуры данных является определение схемы перемещения между узлами.
Для этого веса линейно увеличиваются для каждого перехода (скажите, пожалуйста, есть ли лучший способ увеличить его)
Но, если пользователь уходит с пути своего обычного пути перемещения, должен быть назначен штраф для наиболее вероятного пути и подкрепление для вновь взятого пути, чтобы веса быстро корректировались в соответствии с изменением схемы. Тем самым делая систему более быстрой для самообучения.
Каков наилучший способ назначить это наказание / подкрепление? Я мог бы просто случайным образом выбрать вдвое / удвоить вес, но это не имело бы никакой причины, о которой идет речь, и звучало бы скорее как каприз.
1 ответ
Я предпочел бы дать награду нового пути более высокую ценность; возможно добавление бонуса от обратного пройденного времени.
Я бы не советовал наказывать вероятный путь. Это не часть государства и не то, как RL в основном работает. Скорее рассмотрите следы соответствия.
С другой стороны, вместо того, чтобы настраивать / настраивать обучение, рассматривая возможность улучшения инициализации состояний, это может быть лучше; Ваш пост показывает, что вы в настоящее время пытаетесь применить фоновую информацию о данных.