Описание тега temporal-difference
Обучение временной разнице (TD) - это метод прогнозирования, который в основном используется для решения задачи обучения с подкреплением.
1
ответ
Как не допустить взрыва трассы приемлемости в SARSA с лямбда = 1 для пар состояния-действия, которые посещаются огромное количество раз?
Я тестировал SARSA с лямбда = 1 в Windy Grid World, и если исследование вызывает многократное посещение одной и той же пары "состояние-действие" до достижения цели, трасса соответствия увеличивается каждый раз без какого-либо затухания, поэтому она …
24 июл '17 в 01:31
1
ответ
Изучение временных различий и обратное распространение
Я прочитал эту страницу Standford - https://web.stanford.edu/group/pdplab/pdphandbook/handbookch10.html. Я не могу понять, как обучение TD используется в нейронных сетях. Я пытаюсь создать искусственный интеллект, который будет использовать TD-обуче…
14 фев '16 в 06:30
0
ответов
Моя нейронная сеть не изучает правильные ответы
Во-первых, я полный любитель, поэтому могу перепутать терминологию. Я работал над нейронной сетью, чтобы сыграть в Connect 4 / Four In A Row. Текущий дизайн модели сети состоит из 170 входных значений, 417 скрытых нейронов и 1 выходного нейрона. Сет…
16 дек '17 в 07:16
1
ответ
Градиент темпоральной разности лямбда без приближения функций
Кажется, что в каждом формализме ГТД (λ) он определяется в терминах приближения функции, используя θ и некоторый весовой вектор w. Я понимаю, что потребность в градиентных методах широко возникла из-за их свойств сходимости для аппроксиматоров линей…
30 апр '16 в 15:43
3
ответа
Delphi: EInvalidOp в классе нейронных сетей (TD-лямбда)
У меня есть следующий проект для класса нейронной сети. Эту нейронную сеть следует учить с помощью TD-лямбды. Он начинается с вызова функции getRating(). Но, к сожалению, существует ошибка EInvalidOp (недопустимая операция с точкой загрузки) после п…
15 фев '11 в 23:46
0
ответов
Тренинг по усиленному обучению
Я новичок в изучении подкрепления и делаю проект о шахматах. Я использую нейронную сеть и обучение разнице во времени, чтобы обучить движок изучению игры. Нейронная сеть имеет один входной слой (из 385 объектов), два скрытых слоя и один выходной сло…
20 ноя '16 в 03:22
1
ответ
Обновить правило во временной разнице
Правило обновления TD(0) Q-Learning: Q(t-1) = (1-alpha) * Q(t-1) + (alpha) * (Reward(t-1) + gamma* Max( Q(t) ) ) Затем выполните текущее наилучшее действие (для оптимизации) или случайное действие (для исследователя). Где MaxNextQ - максимальное зна…
28 май '10 в 12:45
2
ответа
TD обучение против Q обучения
В идеальной информационной среде, где мы можем узнать состояние после какого-либо действия, например, игры в шахматы, есть ли причина использовать Q-обучение, а не TD-обучение (разность во времени)? Насколько я понимаю, TD обучение будет пытаться вы…
26 фев '16 в 11:29
1
ответ
Реализация функции потерь (MSVE) в обучении подкреплению
Я пытаюсь создать временного агента по изучению различий для Отелло. В то время как остальная часть моей реализации, кажется, работает как задумано, я задаюсь вопросом о функции потерь, используемой для обучения моей сети. В книге Саттона "Изучение …
11 окт '17 в 10:10
2
ответа
Анализ с течением времени, сравнивая 2 кадра данных построчно
Это небольшая часть фрейма данных, с которым я работаю для справки. Я работаю с фреймом данных (MG53_HanLab) в R, в котором есть столбец для времени, несколько столбцов с именем "MG53", несколько столбцов с именем "F2" и несколько с "Iono" в них. Я…
17 июл '17 в 17:01
0
ответов
Как обновляются веса для сетей с n-кортежами?
В настоящее время я читаю изучение временных различий сетей N-Tuple для игры 2048. Я пытаюсь реализовать свою собственную сеть из n-кортежей, но я не понимаю, как обновляются веса / значения из таблицы поиска (LUT). В документе говорится, что V обно…
20 дек '17 в 22:40
1
ответ
Двойной учет в обучении с разницей во времени
Я работаю над примером изучения временной разницы ( https://www.youtube.com/watch?v=XrxgdpduWOU), и у меня возникли некоторые проблемы со следующим уравнением в моей реализации на python, так как мне кажется, что я получаю двойное вознаграждение и Q…
05 июн '16 в 05:25
1
ответ
Сравнивая временные последовательности
Я пытаюсь обернуть голову вокруг этой задачи и задаюсь вопросом, есть ли стандартный способ сделать это или некоторые библиотеки, которые были бы полезны. Определенные события отслеживаются и синхронизируются в нескольких источниках данных S1 ... SN…
10 сен '10 в 21:14
1
ответ
Реализация обучения разнице во времени на Java
Приведенный ниже код является моей реализацией обучения разнице во времени. Агент, который использует алгоритм TD, играет более 750000 игр против агента, который использует процедуру mini-max для игры, но проблема в том, что TD-агент не учится... Чт…
25 май '13 в 17:06
1
ответ
Какой смысл вообще использовать временную разность?
Насколько я знаю, для конкретной политики \pi, изучение временных разностей позволяет нам вычислить ожидаемое значение, следующее этой политике \pi, но в чем смысл знания конкретной политики? Разве мы не должны пытаться найти оптимальную политику дл…
26 ноя '17 в 07:58
1
ответ
Как эффективно рассчитать блот-экспозицию в нардах
Я пытаюсь реализовать алгоритм для игры в нарды, похожий на td-gammon, как описано здесь. Как описано в документе, в начальной версии td-gammon использовалась только кодировка необработанных досок в пространстве функций, которая создала хорошего игр…
08 окт '16 в 20:44
1
ответ
Как выбрать действие в TD(0) обучения
Я сейчас читаю Саттона Reinforcement Learning: An introduction книга. После прочтения главы 6.1 я хотел реализовать TD(0) Алгоритм RL для этой настройки: Для этого я попытался реализовать представленный здесь псевдокод: Делая это, я задавался вопрос…
21 июл '17 в 07:23
3
ответа
Застрял в понимании разницы между обновлениями использования TD(0) и TD(λ)
Я изучаю разницу во времени, изучая этот пост. Здесь правило обновления TD(0) мне ясно, но в TD(λ) я не понимаю, как значения служебной информации всех предыдущих состояний обновляются в одном обновлении. Вот диаграмма, приведенная для сравнения обн…
02 сен '18 в 10:45
1
ответ
Усиление обучения: разность скоростей Q и Q(λ) в среде Windy Grid World
Предисловие: Я попытался решить эту ситуацию в мире ветровых сеток. Реализовав оба алгоритма Q и Q(λ), результаты практически одинаковы (я смотрю на шаги в каждом эпизоде). Проблема: Из того, что я прочитал, я считаю, что более высокий лямбда-параме…
07 янв '18 в 23:36
1
ответ
Обновления в изучении временных различий
Я читал о программе TD-Gammon от Tesauro и хотел бы реализовать ее для Tic Tac Toe, но почти вся информация недоступна для меня, как старшеклассника, потому что я не знаю терминологию. Первое уравнение здесь, http://www.stanford.edu/group/pdplab/pdp…
22 май '12 в 05:20