Оценка вероятности функции h20 на тестовых данных
Я создал модель случайного леса h20 для прогнозирования мошенничества при оценке с использованием функции прогнозирования для тестовых данных. Я получил ниже dataframe из вывода функции предиката.
Теперь для 2-х записей он предсказал 1, но вероятность p1 намного меньше, чем p0. Какие правильные оценки вероятности (p0/1) и классификацию мы можем использовать для моей модели прогнозирования мошенничества?
Если это не правильные вероятности, то калиброванные вероятности, рассчитанные с использованием параметров (calibrate_model = True), как указано ниже, дадут правильную вероятность?
nfolds=5
rf1 = h2o.estimators.H2ORandomForestEstimator(
model_id = "rf_df1",
ntrees = 200,
max_depth = 4,
sample_rate = .30,
# stopping_metric="misclassification",
# stopping_rounds = 2,
mtries = 6,
min_rows = 12,
nfolds=3,
distribution = "multinomial",
fold_assignment="Modulo",
keep_cross_validation_predictions=True,
calibrate_model = True,
calibration_frame = calib,
weights_column = "weight",
balance_classes = True
# stopping_tolerance = .005)
)
predict p0 p1
1 0 0.9986012 0.000896514
2 1 0.9985695 0.000448676
3 0 0.9981387 0.000477767
0 ответов
Метки прогнозирования основаны на пороге, а используемый порог, как правило, основан на пороге, который максимизирует балл F1. См. Следующий пост, чтобы узнать больше о том, как интерпретировать результаты вероятности.
Подробности о том, как работает калибровочная рамка и модель, можно найти здесь и здесь.