Как обработать непредопределенное пространство действий с помощью градиента политики

Я пытаюсь решить проблему с естественным языком, похожую на текстовую игру с усиленным обучением.

Многие недавние модели обучения с подкреплением, основанные на глубоком обучении, имеют предопределенные выходные поля.

Однако в текстовой игре следующая ситуация может состоять из нескольких предложений на естественном языке, поэтому следующее состояние не может быть определено заранее.

Итак, многие другие исследования текстовых игр решают свою проблему с помощью Q-learning.

Я думаю, что из-за Q-обучения нужны только Q(s, a) для оптимизации, они его использовали.

Но я хочу решить эту проблему с помощью градиента политики.

Я не видел модель градиента политики, в которой было бы заранее определенное пространство действий.

Как я могу сделать?


Извините, я не владею английским языком. Это общая ситуация, такая как игры atari.

state1 = image_vector1
action1 = [button1, button2, button3]

state2 = image_vector2
action2 = [button1, button2, button3]

state3 = image_vector3
action3 = [button1, button2, button3]

но то, что я хочу сделать, это как ниже.

state1 = sentence_vector1
action1 = ["Hi",
           "yes",
           "no"]

state2 = sentence_vector2
action2 = ["NLTK is a leading platform for building ",   
          "NLTK is available for Windows"]


state3 = sentence_vector3
action3 = ["Tokenize and tag some text:",
         "computational linguistics using Python,” and “an ",
         "NLTK is available for Windows, Mac OS X", 
         "Display a parse tree:", 
         "please cite the NLTK book as follows:", 
         "Thanks to a hands-on guide introducing programming"]

Я хочу рассматривать эту проблему как градиент политики с моделью глубокого обучения. Как я могу сделать?

0 ответов

Другие вопросы по тегам