Почему автор этой статьи разделил формулу среднеквадратичной ошибки на 2 вместо MxN?

Ссылка на статью, интуиция, которую он сделал в своей статье, очень убедительно понимают связь между среднеквадратичной ошибкой и гауссовским распределением. но он изменил формулу MSE, чтобы разделить на 2 вместо количества пикселей (MxN). что я не понимаю, это из-за доказательств или это можно использовать таким образом?

1 ответ

Прежде всего, в статье есть опечатка. Гауссово распределение должно быть:

введите описание изображения здесь

Этот "минус" делает остальную часть описания значимой. Теперь термин 1/(2M) несущественен в отношении оптимизации, поскольку он не меняет конечный результат. Насколько я понимаю, делим с М среднюю квадратную разницу по количеству примеров. Это также решает практическую проблему, поскольку помогает избежать переполнения соответствующей переменной. Число 2 является довольно распространенным соглашением из-за того, что оно сокращается с 2 в показателе слагаемых после дифференцирования. Вы также можете увидеть подобное обсуждение здесь в несколько ином контексте.

Другие вопросы по тегам