Описание тега temporal-difference

Обучение временной разнице (TD) - это метод прогнозирования, который в основном используется для решения задачи обучения с подкреплением.
1 ответ

Как не допустить взрыва трассы приемлемости в SARSA с лямбда = 1 для пар состояния-действия, которые посещаются огромное количество раз?

Я тестировал SARSA с лямбда = 1 в Windy Grid World, и если исследование вызывает многократное посещение одной и той же пары "состояние-действие" до достижения цели, трасса соответствия увеличивается каждый раз без какого-либо затухания, поэтому она …
1 ответ

Изучение временных различий и обратное распространение

Я прочитал эту страницу Standford - https://web.stanford.edu/group/pdplab/pdphandbook/handbookch10.html. Я не могу понять, как обучение TD используется в нейронных сетях. Я пытаюсь создать искусственный интеллект, который будет использовать TD-обуче…
0 ответов

Моя нейронная сеть не изучает правильные ответы

Во-первых, я полный любитель, поэтому могу перепутать терминологию. Я работал над нейронной сетью, чтобы сыграть в Connect 4 / Four In A Row. Текущий дизайн модели сети состоит из 170 входных значений, 417 скрытых нейронов и 1 выходного нейрона. Сет…
1 ответ

Градиент темпоральной разности лямбда без приближения функций

Кажется, что в каждом формализме ГТД (λ) он определяется в терминах приближения функции, используя θ и некоторый весовой вектор w. Я понимаю, что потребность в градиентных методах широко возникла из-за их свойств сходимости для аппроксиматоров линей…
3 ответа

Delphi: EInvalidOp в классе нейронных сетей (TD-лямбда)

У меня есть следующий проект для класса нейронной сети. Эту нейронную сеть следует учить с помощью TD-лямбды. Он начинается с вызова функции getRating(). Но, к сожалению, существует ошибка EInvalidOp (недопустимая операция с точкой загрузки) после п…
0 ответов

Тренинг по усиленному обучению

Я новичок в изучении подкрепления и делаю проект о шахматах. Я использую нейронную сеть и обучение разнице во времени, чтобы обучить движок изучению игры. Нейронная сеть имеет один входной слой (из 385 объектов), два скрытых слоя и один выходной сло…
1 ответ

Обновить правило во временной разнице

Правило обновления TD(0) Q-Learning: Q(t-1) = (1-alpha) * Q(t-1) + (alpha) * (Reward(t-1) + gamma* Max( Q(t) ) ) Затем выполните текущее наилучшее действие (для оптимизации) или случайное действие (для исследователя). Где MaxNextQ - максимальное зна…
2 ответа

TD обучение против Q обучения

В идеальной информационной среде, где мы можем узнать состояние после какого-либо действия, например, игры в шахматы, есть ли причина использовать Q-обучение, а не TD-обучение (разность во времени)? Насколько я понимаю, TD обучение будет пытаться вы…
1 ответ

Реализация функции потерь (MSVE) в обучении подкреплению

Я пытаюсь создать временного агента по изучению различий для Отелло. В то время как остальная часть моей реализации, кажется, работает как задумано, я задаюсь вопросом о функции потерь, используемой для обучения моей сети. В книге Саттона "Изучение …
2 ответа

Анализ с течением времени, сравнивая 2 кадра данных построчно

Это небольшая часть фрейма данных, с которым я работаю для справки. Я работаю с фреймом данных (MG53_HanLab) в R, в котором есть столбец для времени, несколько столбцов с именем "MG53", несколько столбцов с именем "F2" и несколько с "Iono" в них. Я…
17 июл '17 в 17:01
0 ответов

Как обновляются веса для сетей с n-кортежами?

В настоящее время я читаю изучение временных различий сетей N-Tuple для игры 2048. Я пытаюсь реализовать свою собственную сеть из n-кортежей, но я не понимаю, как обновляются веса / значения из таблицы поиска (LUT). В документе говорится, что V обно…
1 ответ

Двойной учет в обучении с разницей во времени

Я работаю над примером изучения временной разницы ( https://www.youtube.com/watch?v=XrxgdpduWOU), и у меня возникли некоторые проблемы со следующим уравнением в моей реализации на python, так как мне кажется, что я получаю двойное вознаграждение и Q…
1 ответ

Сравнивая временные последовательности

Я пытаюсь обернуть голову вокруг этой задачи и задаюсь вопросом, есть ли стандартный способ сделать это или некоторые библиотеки, которые были бы полезны. Определенные события отслеживаются и синхронизируются в нескольких источниках данных S1 ... SN…
1 ответ

Реализация обучения разнице во времени на Java

Приведенный ниже код является моей реализацией обучения разнице во времени. Агент, который использует алгоритм TD, играет более 750000 игр против агента, который использует процедуру mini-max для игры, но проблема в том, что TD-агент не учится... Чт…
1 ответ

Какой смысл вообще использовать временную разность?

Насколько я знаю, для конкретной политики \pi, изучение временных разностей позволяет нам вычислить ожидаемое значение, следующее этой политике \pi, но в чем смысл знания конкретной политики? Разве мы не должны пытаться найти оптимальную политику дл…
1 ответ

Как эффективно рассчитать блот-экспозицию в нардах

Я пытаюсь реализовать алгоритм для игры в нарды, похожий на td-gammon, как описано здесь. Как описано в документе, в начальной версии td-gammon использовалась только кодировка необработанных досок в пространстве функций, которая создала хорошего игр…
1 ответ

Как выбрать действие в TD(0) обучения

Я сейчас читаю Саттона Reinforcement Learning: An introduction книга. После прочтения главы 6.1 я хотел реализовать TD(0) Алгоритм RL для этой настройки: Для этого я попытался реализовать представленный здесь псевдокод: Делая это, я задавался вопрос…
3 ответа

Застрял в понимании разницы между обновлениями использования TD(0) и TD(λ)

Я изучаю разницу во времени, изучая этот пост. Здесь правило обновления TD(0) мне ясно, но в TD(λ) я не понимаю, как значения служебной информации всех предыдущих состояний обновляются в одном обновлении. Вот диаграмма, приведенная для сравнения обн…
1 ответ

Усиление обучения: разность скоростей Q и Q(λ) в среде Windy Grid World

Предисловие: Я попытался решить эту ситуацию в мире ветровых сеток. Реализовав оба алгоритма Q и Q(λ), результаты практически одинаковы (я смотрю на шаги в каждом эпизоде). Проблема: Из того, что я прочитал, я считаю, что более высокий лямбда-параме…
1 ответ

Обновления в изучении временных различий

Я читал о программе TD-Gammon от Tesauro и хотел бы реализовать ее для Tic Tac Toe, но почти вся информация недоступна для меня, как старшеклассника, потому что я не знаю терминологию. Первое уравнение здесь, http://www.stanford.edu/group/pdplab/pdp…