Описание тега temporal-difference

Описание тега Вопросы с тегом

Обучение временной разнице (TD) - это метод прогнозирования, который в основном используется для решения задачи обучения с подкреплением.

1 ответ

Как не допустить взрыва трассы приемлемости в SARSA с лямбда = 1 для пар состояния-действия, которые посещаются огромное количество раз?

Я тестировал SARSA с лямбда = 1 в Windy Grid World, и если исследование вызывает многократное посещение одной и той же пары "состояние-действие" до достижения цели, трасса соответствия увеличивается каждый раз без какого-либо затухания, поэтому она …

24 июл '17 в 01:31

1 ответ

Изучение временных различий и обратное распространение

Я прочитал эту страницу Standford - https://web.stanford.edu/group/pdplab/pdphandbook/handbookch10.html. Я не могу понять, как обучение TD используется в нейронных сетях. Я пытаюсь создать искусственный интеллект, который будет использовать TD-обуче…

machine-learning neural-network reinforcement-learning backpropagation temporal-difference

14 фев '16 в 06:30

0 ответов

Моя нейронная сеть не изучает правильные ответы

Во-первых, я полный любитель, поэтому могу перепутать терминологию. Я работал над нейронной сетью, чтобы сыграть в Connect 4 / Four In A Row. Текущий дизайн модели сети состоит из 170 входных значений, 417 скрытых нейронов и 1 выходного нейрона. Сет…

c++ neural-network minimax temporal-difference

16 дек '17 в 07:16

1 ответ

Градиент темпоральной разности лямбда без приближения функций

Кажется, что в каждом формализме ГТД (λ) он определяется в терминах приближения функции, используя θ и некоторый весовой вектор w. Я понимаю, что потребность в градиентных методах широко возникла из-за их свойств сходимости для аппроксиматоров линей…

machine-learning reinforcement-learning temporal-difference

30 апр '16 в 15:43

3 ответа

Delphi: EInvalidOp в классе нейронных сетей (TD-лямбда)

У меня есть следующий проект для класса нейронной сети. Эту нейронную сеть следует учить с помощью TD-лямбды. Он начинается с вызова функции getRating(). Но, к сожалению, существует ошибка EInvalidOp (недопустимая операция с точкой загрузки) после п…

exception delphi neural-network pascal temporal-difference

15 фев '11 в 23:46

0 ответов

Тренинг по усиленному обучению

Я новичок в изучении подкрепления и делаю проект о шахматах. Я использую нейронную сеть и обучение разнице во времени, чтобы обучить движок изучению игры. Нейронная сеть имеет один входной слой (из 385 объектов), два скрытых слоя и один выходной сло…

neural-network reinforcement-learning chess temporal-difference

20 ноя '16 в 03:22

1 ответ

Обновить правило во временной разнице

Правило обновления TD(0) Q-Learning: Q(t-1) = (1-alpha) * Q(t-1) + (alpha) * (Reward(t-1) + gamma* Max( Q(t) ) ) Затем выполните текущее наилучшее действие (для оптимизации) или случайное действие (для исследователя). Где MaxNextQ - максимальное зна…

machine-learning artificial-intelligence markov-models temporal-difference

28 май '10 в 12:45

2 ответа

TD обучение против Q обучения

В идеальной информационной среде, где мы можем узнать состояние после какого-либо действия, например, игры в шахматы, есть ли причина использовать Q-обучение, а не TD-обучение (разность во времени)? Насколько я понимаю, TD обучение будет пытаться вы…

machine-learning reinforcement-learning q-learning temporal-difference

26 фев '16 в 11:29

1 ответ

Реализация функции потерь (MSVE) в обучении подкреплению

Я пытаюсь создать временного агента по изучению различий для Отелло. В то время как остальная часть моей реализации, кажется, работает как задумано, я задаюсь вопросом о функции потерь, используемой для обучения моей сети. В книге Саттона "Изучение …

pytorch reinforcement-learning loss-function temporal-difference othello

11 окт '17 в 10:10

2 ответа

Анализ с течением времени, сравнивая 2 кадра данных построчно

Это небольшая часть фрейма данных, с которым я работаю для справки. Я работаю с фреймом данных (MG53_HanLab) в R, в котором есть столбец для времени, несколько столбцов с именем "MG53", несколько столбцов с именем "F2" и несколько с "Iono" в них. Я…

r dataframe subset temporal-difference

17 июл '17 в 17:01

0 ответов

Как обновляются веса для сетей с n-кортежами?

В настоящее время я читаю изучение временных различий сетей N-Tuple для игры 2048. Я пытаюсь реализовать свою собственную сеть из n-кортежей, но я не понимаю, как обновляются веса / значения из таблицы поиска (LUT). В документе говорится, что V обно…

neural-network conv-neural-network recurrent-neural-network reinforcement-learning temporal-difference

20 дек '17 в 22:40

1 ответ

Двойной учет в обучении с разницей во времени

Я работаю над примером изучения временной разницы ( https://www.youtube.com/watch?v=XrxgdpduWOU), и у меня возникли некоторые проблемы со следующим уравнением в моей реализации на python, так как мне кажется, что я получаю двойное вознаграждение и Q…

python machine-learning reinforcement-learning temporal-difference

05 июн '16 в 05:25

1 ответ

Сравнивая временные последовательности

Я пытаюсь обернуть голову вокруг этой задачи и задаюсь вопросом, есть ли стандартный способ сделать это или некоторые библиотеки, которые были бы полезны. Определенные события отслеживаются и синхронизируются в нескольких источниках данных S1 ... SN…

temporal temporal-database temporal-difference

10 сен '10 в 21:14

1 ответ

Реализация обучения разнице во времени на Java

Приведенный ниже код является моей реализацией обучения разнице во времени. Агент, который использует алгоритм TD, играет более 750000 игр против агента, который использует процедуру mini-max для игры, но проблема в том, что TD-агент не учится... Чт…

java machine-learning neural-network artificial-intelligence temporal-difference

25 май '13 в 17:06

1 ответ

Какой смысл вообще использовать временную разность?

Насколько я знаю, для конкретной политики \pi, изучение временных разностей позволяет нам вычислить ожидаемое значение, следующее этой политике \pi, но в чем смысл знания конкретной политики? Разве мы не должны пытаться найти оптимальную политику дл…

reinforcement-learning temporal-difference

26 ноя '17 в 07:58

1 ответ

Как эффективно рассчитать блот-экспозицию в нардах

Я пытаюсь реализовать алгоритм для игры в нарды, похожий на td-gammon, как описано здесь. Как описано в документе, в начальной версии td-gammon использовалась только кодировка необработанных досок в пространстве функций, которая создала хорошего игр…

algorithm machine-learning artificial-intelligence reinforcement-learning temporal-difference

08 окт '16 в 20:44

1 ответ

Как выбрать действие в TD(0) обучения

Я сейчас читаю Саттона Reinforcement Learning: An introduction книга. После прочтения главы 6.1 я хотел реализовать TD(0) Алгоритм RL для этой настройки: Для этого я попытался реализовать представленный здесь псевдокод: Делая это, я задавался вопрос…

reinforcement-learning temporal-difference

21 июл '17 в 07:23

3 ответа

Застрял в понимании разницы между обновлениями использования TD(0) и TD(λ)

Я изучаю разницу во времени, изучая этот пост. Здесь правило обновления TD(0) мне ясно, но в TD(λ) я не понимаю, как значения служебной информации всех предыдущих состояний обновляются в одном обновлении. Вот диаграмма, приведенная для сравнения обн…

machine-learning reinforcement-learning temporal-difference

02 сен '18 в 10:45

1 ответ

Усиление обучения: разность скоростей Q и Q(λ) в среде Windy Grid World

Предисловие: Я попытался решить эту ситуацию в мире ветровых сеток. Реализовав оба алгоритма Q и Q(λ), результаты практически одинаковы (я смотрю на шаги в каждом эпизоде). Проблема: Из того, что я прочитал, я считаю, что более высокий лямбда-параме…

python lambda reinforcement-learning q-learning temporal-difference

07 янв '18 в 23:36

1 ответ

Обновления в изучении временных различий

Я читал о программе TD-Gammon от Tesauro и хотел бы реализовать ее для Tic Tac Toe, но почти вся информация недоступна для меня, как старшеклассника, потому что я не знаю терминологию. Первое уравнение здесь, http://www.stanford.edu/group/pdplab/pdp…

machine-learning reinforcement-learning tic-tac-toe temporal-difference

22 май '12 в 05:20