Некоторые регрессионные модели плохо работают на обучающей выборке и хорошо работают на невидимых данных.
Я использую разные регрессионные модели для решения проблемы регрессии. Проблема в том, что показатели производительности очень высоки на тестовом наборе (train_test_split). Вот значения:
- MAE: 2.5001127258479676 MSE: 8.917729026153863 RMSE:2.986256691269835 R2: 0.7879672181229262 При использовании с новыми данными он работает очень хорошо.
Вторая модель (Xgboost) хорошо работает с данными обучения, но очень плохо работает с новыми данными. Итак, проблема обратная. В чем причины этого? И как это можно было решить?
Вот используемые данные: AVG_TORQUE и scanned_area - это функции.