Q-обучение по значению ETX для RPL COOJA. какое значение матрицы вознаграждений учитывает и для q-таблицы с 0 значениями, что будет состоянием и действием
хотите применить Q-Learning к значению ETX для целевой функции RPL COOJA. но не можете подумать о том, что взять значение матрицы вознаграждений и каковы будут состояние и действия для q-таблицы с 0 значениями? Я все еще нахожусь на стадии инициализации Q-обучения.