Тренировочные данные против Тестовые данные
Это может звучать как элементарный вопрос, но у меня возникло серьезное замешательство в отношении тренировочного набора и теста.
Когда мы используем методы обучения под наблюдением, такие как классификация, для предсказания чего-то, обычной практикой является разделение набора данных на две части: обучение и набор тестов. Учебный набор будет иметь переменную предиктора, мы обучаем модель на наборе данных и "предсказываем" вещи.
Давайте возьмем пример. Мы собираемся предсказать неплательщиков по кредитам в банке, и у нас есть набор данных по кредитам в Германии, где мы прогнозируем неплательщиков и неплательщиков, но уже есть столбец определения, в котором указано, является ли клиент неплательщиком или недопустителем.
Я понимаю логику прогнозирования на данных UNSEEN, таких как данные о выживании на "Титанике", но какова точка прогнозирования, когда класс уже упоминается, например, данные о немецком кредитовании.
3 ответа
Как вы сказали, идея состоит в том, чтобы придумать модель, которую вы можете прогнозировать НЕПРАВИЛЬНЫЕ данные. Данные теста используются только для измерения производительности вашей модели, созданной с помощью данных обучения. Вы хотите убедиться, что модель, к которой вы подходите, не "превосходит" ваши тренировочные данные. Вот почему данные тестирования важны. В конце концов, вы будете использовать модель, чтобы предсказать, будет ли новый заемщик идти на дефолт или нет, таким образом, принимая бизнес-решение об утверждении заявки на кредит.
Причина, по которой они включают значения по умолчанию, заключается в том, что вы можете убедиться, что модель работает должным образом, и прогнозировать правильные результаты. Без чего никто не может быть уверен, что их модель работает так, как ожидалось.
Конечная цель обучения модели - применить ее к тому, что вы называете НЕПРАВИЛЬНЫМИ данными.
Даже в вашем примере кредитования на немецком языке, в конце дня у вас будет обученная модель, которую вы могли бы использовать, чтобы предсказать, будут ли по умолчанию новые - невидимые - кредитные приложения или нет. И вы сможете использовать его в будущем для любого нового кредитного заявления, если только вы сможете представлять новые кредитные данные в том же формате, который вы использовали для обучения своей модели.
С другой стороны, набор тестов - это просто формализм, используемый для оценки того, насколько хороша модель. Вы не можете точно знать, насколько точной будет ваша модель с будущими кредитными приложениями, но вы можете сохранить небольшую часть данных обучения и использовать ее только для проверки производительности модели после ее построения. Это то, что вы бы назвали тестовым набором (или, точнее, набором проверки).