Лучший способ назначить штраф в нейронных сетях?

Question

Лучший способ назначить штраф в нейронных сетях?

У меня есть структура данных ориентированного взвешенного графа, где вес между, скажем, узлом A и узлом B говорит о том, сколько раз был выполнен переход от узла A к узлу B.

Целью структуры данных является определение схемы перемещения между узлами.

Для этого веса линейно увеличиваются для каждого перехода (скажите, пожалуйста, есть ли лучший способ увеличить его)

Но, если пользователь уходит с пути своего обычного пути перемещения, должен быть назначен штраф для наиболее вероятного пути и подкрепление для вновь взятого пути, чтобы веса быстро корректировались в соответствии с изменением схемы. Тем самым делая систему более быстрой для самообучения.

Каков наилучший способ назначить это наказание / подкрепление? Я мог бы просто случайным образом выбрать вдвое / удвоить вес, но это не имело бы никакой причины, о которой идет речь, и звучало бы скорее как каприз.

0

artificial-intelligence reinforcement-learning supervised-learning

Источник

user4502591 24 мар '15 в 10:26

1 ответ

Другие вопросы по тегам artificial-intelligence reinforcement-learning supervised-learning

user184379 27 мар '15 в 13:21 2015-03-27 13:21 · Answer 1 · 2015-03-27 13:21

Я предпочел бы дать награду нового пути более высокую ценность; возможно добавление бонуса от обратного пройденного времени.

Я бы не советовал наказывать вероятный путь. Это не часть государства и не то, как RL в основном работает. Скорее рассмотрите следы соответствия.

С другой стороны, вместо того, чтобы настраивать / настраивать обучение, рассматривая возможность улучшения инициализации состояний, это может быть лучше; Ваш пост показывает, что вы в настоящее время пытаетесь применить фоновую информацию о данных.