Почему выполнение масштабирования объекта меняет поверхность ошибки на сферическую?
Я пытался понять, как масштабирование функций улучшает производительность градиентного спуска. Я столкнулся с такими ответами, как например, масштабирование элементов придает поверхности ошибки более сферическую форму, где в противном случае это был бы эллипс с очень высокой кривизной.
- Я хочу знать, как масштабирование объекта связано с характером поверхности функции ошибок.
- И как сферическая природа этой поверхности помогает градиентному спуску уменьшить количество шагов, необходимых для достижения локального оптимального значения.