Почему метод перекрестной энтропии предпочтительнее среднего квадратичного отклонения? В каких случаях это не работает?
Хотя оба вышеупомянутых метода обеспечивают лучшую оценку для лучшей точности прогноза, все же предпочтительной является перекрестная энтропия. Это в каждом случае или есть какие-то особые сценарии, когда мы предпочитаем кросс-энтропию по сравнению с MSE?
3 ответа
Кросс-энтропия предпочтительнее для классификации, в то время как среднеквадратическая ошибка является одним из лучших вариантов регрессии. Это происходит непосредственно из формулировки самой проблемы - в классификации вы работаете с очень конкретным набором возможных выходных значений, поэтому MSE плохо определено (так как у него нет такого рода знаний, что наказывает ошибки несовместимым способом). Чтобы лучше понять явления, хорошо следить и понимать отношения между
- перекрестная энтропия
- логистическая регрессия (бинарная кросс-энтропия)
- линейная регрессия (MSE)
Вы заметите, что оба могут рассматриваться как оценки максимального правдоподобия, просто с разными предположениями о зависимой переменной.
Когда вы выводите функцию стоимости из аспекта вероятности и распределения, вы можете наблюдать, что MSE происходит, когда вы предполагаете, что ошибка следует за нормальным распределением и перекрестной энтропией, когда вы принимаете биномиальное распределение. Это означает, что неявно, когда вы используете MSE, вы делаете регрессию (оценку), а когда вы используете CE, вы делаете классификацию. Надеюсь, это поможет немного.
Например, если вы выполняете логистическую регрессию, вы будете использовать сигмовидную функцию для оценки вероятности, перекрестной энтропии как функции потерь и градиентного спуска, чтобы минимизировать ее. Выполнение этого, но с использованием MSE в качестве функции потерь может привести к невыпуклой проблеме, где вы можете найти локальные минимумы. Использование перекрестной энтропии приведет к выпуклой проблеме, где вы можете найти оптимальное решение.
https://www.youtube.com/watch?v=rtD0RvfBJqQ&list=PL0Smm0jPm9WcCsYvbhPCdizqNKps69W4Z&index=35
Здесь также есть интересный анализ: https://jamesmccaffrey.wordpress.com/2013/11/05/why-you-should-use-cross-entropy-error-instead-of-classification-error-or-mean-squared-error-for-neural-network-classifier-training/