Последовательность с максимальным счетом?

Question

Последовательность с максимальным счетом?

Скажем, у меня есть n-состояния S={s1,s2,s3, ..... sn }, и у меня есть оценка для каждого перехода, то есть T-матрица fe s1->s5 = 0.3, s4->s3 = 0.7, ....так далее.

Какой алгоритм или процедуру я должен использовать, чтобы выбрать наилучшую оцененную последовательность / путь, начиная с состояния-x (s_x).

Два вопроса:

Выберите наилучшее следующее состояние, чтобы на бесконечно длинном пути я выбирал как можно лучшее состояние в среднем?
Учитывая длину пути L, выберите последовательность состояний, которая будет генерировать наибольшее количество очков?

В настоящее время я изучаю изучение подкрепления, но это кажется излишним, потому что у меня нет ни действий, ни политик. Может быть, я могу использовать что-то вроде функции Value, не знаю.

Что бы вы использовали?

PS> В некоторых сценариях T-матрица может меняться со временем.

http://mnemstudio.org/path-finding-q-learning-tutorial.htm

Кажется, что Q-learning - хорошая ставка. Единственное отличие, которое я вижу, состоит в том, что если я хочу хранить Q-значения во времени, мне нужно найти способ приспособиться к изменению T-матрицы.

И второе сложнее, что нет конечной цели, а только изменение промежуточных баллов. Может быть, мне не нужно менять алгоритм, он просто сходится к изменению баллов, что, я думаю, нормально.

Мои первые мысли были на каждом временном шаге, чтобы сделать L-шаги наилучшим путем (то есть пересчитывать Q каждый раз с нуля), но если я смогу, я предпочту сохранить изменяющуюся Q-таблицу в соответствии с входящими данными.

1

algorithm reinforcement-learning q-learning

Источник

user1019129 19 янв '17 в 20:27

1 ответ

Другие вопросы по тегам algorithm reinforcement-learning q-learning

user381179 19 янв '17 в 20:46 2017-01-19 20:46 · Answer 1 · 2017-01-19 20:46

Ваш вариант 1 будет назван жадным подходом. Обычно это относится к подходам, которые выбирают сразу "лучшие" варианты. Проблема в том, что жадный выбор сейчас может ограничить ваш оптимальный выбор в будущем.

Если вы не установите ограничение для длины пути, то, очевидно, максимальная оценка бесконечна.

Итак, теперь вопрос: какова лучшая последовательность для данной длины пути? Это можно решить за полиномиальное время с помощью таких вещей, как динамическое программирование.

Рекурсивная формулировка (которую вы затем можете использовать для определения части динамического программирования) гласит: Чтобы выяснить лучший путь длины L, начиная с состояния x, посмотрите на все другие состояния y. Для каждого из них вычисляем T_xy + "лучший путь длины L-1, начиная с состояния y".

Очевидно, что лучший путь длины 1, начиная с некоторого состояния x, будет "следующим лучшим состоянием", поэтому ваша рекурсия имеет простой базовый случай.