Как обработать непредопределенное пространство действий с помощью градиента политики
Я пытаюсь решить проблему с естественным языком, похожую на текстовую игру с усиленным обучением.
Многие недавние модели обучения с подкреплением, основанные на глубоком обучении, имеют предопределенные выходные поля.
Однако в текстовой игре следующая ситуация может состоять из нескольких предложений на естественном языке, поэтому следующее состояние не может быть определено заранее.
Итак, многие другие исследования текстовых игр решают свою проблему с помощью Q-learning.
Я думаю, что из-за Q-обучения нужны только Q(s, a) для оптимизации, они его использовали.
Но я хочу решить эту проблему с помощью градиента политики.
Я не видел модель градиента политики, в которой было бы заранее определенное пространство действий.
Как я могу сделать?
Извините, я не владею английским языком. Это общая ситуация, такая как игры atari.
state1 = image_vector1
action1 = [button1, button2, button3]
state2 = image_vector2
action2 = [button1, button2, button3]
state3 = image_vector3
action3 = [button1, button2, button3]
но то, что я хочу сделать, это как ниже.
state1 = sentence_vector1
action1 = ["Hi",
"yes",
"no"]
state2 = sentence_vector2
action2 = ["NLTK is a leading platform for building ",
"NLTK is available for Windows"]
state3 = sentence_vector3
action3 = ["Tokenize and tag some text:",
"computational linguistics using Python,” and “an ",
"NLTK is available for Windows, Mac OS X",
"Display a parse tree:",
"please cite the NLTK book as follows:",
"Thanks to a hands-on guide introducing programming"]
Я хочу рассматривать эту проблему как градиент политики с моделью глубокого обучения. Как я могу сделать?