Как мне моделировать тайм-аут повторной передачи TCP (RTO) как проблему обучения с подкреплением или контекстного бандита?
Я хочу смоделировать TCP RTO как проблему контекстного бандита; если это невозможно, тогда проблема с обучением с подкреплением. Пожалуйста, помогите мне подумать о том, как определить контекст, награду, действие в этом сценарии.
Здесь я хочу рассматривать пространство действия как набор дискретного времени. Например, {1s, 2s, 3s, 4s}. Я не уверен, но я думаю, что награда должна быть либо 1) временем от момента отправки пакета до момента получения ACK для пакета, либо 2) +1, если ACK получен, и -1, если нет. Я понятия не имею, как определить контекст в этом случае, поскольку контекст должен быть iid