Рассчитать MSE для учебного набора, в котором отсутствует переменная ответа

У меня есть тренировочный набор с переменной ответа ViolentCrimesPerPop, и я специально установил большое дерево регрессии с контролем

control1 <- rpart.control(minsplit=2, cp=1e-8, xval=20)

train_control <- rpart(ViolentCrimesPerPop ~ ., data=train, method='anova', control=control1)

Затем я использую его, чтобы предсказать набор тестирования

predict1 <- predict(train_control, newdata=test)

однако я не уверен, как вычислить среднеквадратичную ошибку тестового набора, потому что для этого требуется переменная ответа ViolentCrimesPerPop, которая не указана в тестовом наборе. Может кто-нибудь дать мне подсказку о том, как подойти к этой проблеме?

3 ответа

Вы можете найти MSE, только зная основную правду. Если вы не знаете тестовых ярлыков, то единственный способ состоит в том, чтобы обучить вашу модель 70 или 80% данных поезда и проверить MSE на других 20/30% данных поезда.

Вы не сможете рассчитать MSE для тестового набора, если не знаете основную правду (переменная ответа). Однако, возможно, вас попросили разделить набор данных, содержащий основную правду, на тренировку и тестирование; в этом случае вы можете легко вычислить MSE.

Вы работаете над некоторыми тестами Kaggle, которые не предоставляют переменную ответа для набора тестов?

Независимо от этого, попробуйте разделить ваш тренировочный набор на новые подмножества и использовать часть в качестве обучения, а остальные - для тестирования вашей модели. Вы не можете оценить производительность модели без переменной отклика.

Другие вопросы по тегам