Что МЭ на самом деле говорит мне?

Я создал простую модель линейной регрессии для прогнозирования цен закрытия S&P 500. затем вычислил Среднее абсолютное отклонение (MAE) и получил оценку MAE 1290. Теперь я не хочу знать, правильно это или нет, но я хочу знать, что MAE из 1290 говорит мне о моей модели.

1 ответ

Решение

Если честно "в общем", то это почти ничего вам не говорит. Значение является совершенно произвольным, и только если вы точно понимаете свои данные, вы можете сделать какие-либо выводы.

MAE означает "Средняя абсолютная ошибка", поэтому, если у вас значение 1290, это означает, что если вы случайным образом выберете точку данных из своих данных, то вы ожидаете, что ваш прогноз будет 1290 от истинного значения. Это хорошо? Плохой? Зависит от масштаба вашего выхода. Если это в миллионах, то ошибка такая большая - ничто, и модель хороша. Если ваши выходные значения находятся в диапазоне тысяч, это ужасно.

Если я правильно понимаю, цены закрытия S&P 500 - это числа от 0 до 2500 (за последние 36 лет), поэтому ошибка 1290 выглядит так, будто ваша модель ничего не выучила. Это очень похоже на постоянную модель, всегда отвечающую "1200" или что-то около этого значения.

MAE, полученное с помощью модели, всегда следует сверять с базовой моделью.

Часто используемый базовый уровень - это присвоение медианного значения. Рассчитайте MAE для случая, когда все ваши прогнозы всегда равны медиане вашего вектора целевой переменной, а затем убедитесь сами, значительно ли ниже MAE вашей модели. Если это так - поздравляю.

Обратите внимание, что в этом случае базовая MAE будет зависеть от целевого распределения. Если ваш тестовый образец содержит множество экземпляров, которые действительно близки к медиане, то будет практически невозможно получить модель с MAE лучше, чем базовый уровень. Таким образом, MAE следует использовать только тогда, когда ваш тестовый образец достаточно разнообразен. В крайнем случае, когда в тестовом образце всего 1 экземпляр, вы получите базовое значение MAE=0, которое всегда будет не хуже любой модели, которую вы можете придумать.

Эта проблема с MAE особенно заметна, когда вы получаете MAE для всей выборки, а затем хотите проверить, как она изменяется в разных подвыборках. Скажем, у вас есть модель, которая прогнозирует годовой доход на основе образования, возраста, семейного положения и т. Д. Вы получаете MAE в размере 1,2 тыс. Долларов, базовая MAE составляет 5 тыс. Долларов, поэтому вы делаете вывод, что ваша модель довольно хороша. Затем вы хотите проверить, как модель работает с низкими доходами, и получить MAE 1,7 тыс. Долларов при базовом уровне 0,5 тыс. Долларов. То же самое, вероятно, произойдет, если вы изучите ошибки в демографических данных 18–22 лет.

Другие вопросы по тегам