Перемешивать или нет при разделении поезда и тестового набора
Мне нужна модель, чтобы предсказать класс. Поэтому я должен разделить свои данные на обучающие, проверочные и тестовые наборы. Сначала я перетасовываю свои данные (80 % для набора поездов и 20% для набора тестов). Затем, поскольку я должен определить некоторые гиперпараметры, я разделил свой набор поездов, используя 10-кратную перекрестную проверку. Наконец, я тренирую свою модель, используя набор поездов (80 % данных) и указанные гиперпараметры. У меня вопрос. Это неправильно, что я сначала перетасовываю свои данные, а затем разделяю их? Некоторые исследователи считают, что если вы хотите утверждать, что ваша модель может предсказать будущие данные, вам не следует перетасовывать данные. Вы должны выбрать последние 20% данных в качестве тестового набора. Это правильно? я могу перетасовать свои данные? не могли бы вы представить мне академическую книгу или статью для решения моей проблемы? большое спасибо
2 ответа
Независимо от какой-либо техники ML, могут быть разные способы оценки ваших результатов. В вашей задаче вы должны сначала перемешать данные, а затем разбить их на наборы поездов и тестов. Эта перестановка должна быть случайной; чтобы избежать смещения, повторите этот процесс несколько раз, а затем сообщите средние результаты. Вы также можете вычислить стандартное отклонение вашей погрешности / точности, чтобы увидеть, сильно ли меняются результаты или нет. Если да, то, возможно, ваша модель не обучается должным образом, и вам, возможно, придется попробовать другой метод, увеличить объем данных или сделать что-то еще. Чтобы узнать о типе проблемы НЛП, совет Goolge по тасованию можно проверить здесь. Шаг 3: Подготовьте свои данные
Лучше перетасовать. Если порядок примеров таков, что более ранние примеры отличаются от более поздних, разделение по порядку может привести к значительному различию данных обучения и испытаний, что сделает перекрестную проверку менее значимой. Перемешивание уменьшит вероятность этого.