Рассчитать MSE для учебного набора, в котором отсутствует переменная ответа

Question

Рассчитать MSE для учебного набора, в котором отсутствует переменная ответа

У меня есть тренировочный набор с переменной ответа ViolentCrimesPerPop, и я специально установил большое дерево регрессии с контролем

control1 <- rpart.control(minsplit=2, cp=1e-8, xval=20)

train_control <- rpart(ViolentCrimesPerPop ~ ., data=train, method='anova', control=control1)

Затем я использую его, чтобы предсказать набор тестирования

predict1 <- predict(train_control, newdata=test)

однако я не уверен, как вычислить среднеквадратичную ошибку тестового набора, потому что для этого требуется переменная ответа ViolentCrimesPerPop, которая не указана в тестовом наборе. Может кто-нибудь дать мне подсказку о том, как подойти к этой проблеме?

-1

r machine-learning regression mse

Источник

user6846071 23 окт '18 в 21:34

3 ответа

Другие вопросы по тегам r machine-learning regression mse

user8481155 30 окт '18 в 13:11 2018-10-30 13:11 · Answer 1 · 2018-10-30 13:11

Вы можете найти MSE, только зная основную правду. Если вы не знаете тестовых ярлыков, то единственный способ состоит в том, чтобы обучить вашу модель 70 или 80% данных поезда и проверить MSE на других 20/30% данных поезда.

1

Источник

user8481155 30 окт '18 в 13:11

user10453411 23 окт '18 в 21:39 2018-10-23 21:39 · Answer 2 · 2018-10-23 21:39

Вы не сможете рассчитать MSE для тестового набора, если не знаете основную правду (переменная ответа). Однако, возможно, вас попросили разделить набор данных, содержащий основную правду, на тренировку и тестирование; в этом случае вы можете легко вычислить MSE.

0

Источник

user10453411 23 окт '18 в 21:39

user7037228 23 окт '18 в 21:39 2018-10-23 21:39 · Answer 3 · 2018-10-23 21:39

Вы работаете над некоторыми тестами Kaggle, которые не предоставляют переменную ответа для набора тестов?

Независимо от этого, попробуйте разделить ваш тренировочный набор на новые подмножества и использовать часть в качестве обучения, а остальные - для тестирования вашей модели. Вы не можете оценить производительность модели без переменной отклика.