Почему автор этой статьи разделил формулу среднеквадратичной ошибки на 2 вместо MxN?
Ссылка на статью, интуиция, которую он сделал в своей статье, очень убедительно понимают связь между среднеквадратичной ошибкой и гауссовским распределением. но он изменил формулу MSE, чтобы разделить на 2 вместо количества пикселей (MxN). что я не понимаю, это из-за доказательств или это можно использовать таким образом?
1 ответ
Прежде всего, в статье есть опечатка. Гауссово распределение должно быть:
Этот "минус" делает остальную часть описания значимой. Теперь термин 1/(2M) несущественен в отношении оптимизации, поскольку он не меняет конечный результат. Насколько я понимаю, делим с М среднюю квадратную разницу по количеству примеров. Это также решает практическую проблему, поскольку помогает избежать переполнения соответствующей переменной. Число 2 является довольно распространенным соглашением из-за того, что оно сокращается с 2 в показателе слагаемых после дифференцирования. Вы также можете увидеть подобное обсуждение здесь в несколько ином контексте.