Как мне моделировать тайм-аут повторной передачи TCP (RTO) как проблему обучения с подкреплением или контекстного бандита?

Question

Как мне моделировать тайм-аут повторной передачи TCP (RTO) как проблему обучения с подкреплением или контекстного бандита?

Я хочу смоделировать TCP RTO как проблему контекстного бандита; если это невозможно, тогда проблема с обучением с подкреплением. Пожалуйста, помогите мне подумать о том, как определить контекст, награду, действие в этом сценарии.

Здесь я хочу рассматривать пространство действия как набор дискретного времени. Например, {1s, 2s, 3s, 4s}. Я не уверен, но я думаю, что награда должна быть либо 1) временем от момента отправки пакета до момента получения ACK для пакета, либо 2) +1, если ACK получен, и -1, если нет. Я понятия не имею, как определить контекст в этом случае, поскольку контекст должен быть iid

0

tcp reinforcement-learning retransmit-timeout

Источник

user12055194 11 ноя '19 в 03:30

0 ответов

Другие вопросы по тегам tcp reinforcement-learning retransmit-timeout