Определение, является ли разница между двумя значениями RMSE значительными
Я оцениваю два регрессора в рекомендательных системах в 4 очень больших наборах данных, и их различие с точки зрения СКО очень мало, как показано на рисунке.
Я провел 10-кратную перекрестную проверку и проанализировал эксперименты с t-критерий Стьюдента и обнаружил статистическую значимость при p-значении <0,01. В то время как статистический тест утверждает, что они различны, я не удовлетворен небольшим уменьшением между экспериментами.
Кто-нибудь понимает, действительно ли результаты значительны или нет? Влияет ли размер тестового набора на величину RMSE-различий?