Перемешивать или нет при разделении поезда и тестового набора

Question

Перемешивать или нет при разделении поезда и тестового набора

Мне нужна модель, чтобы предсказать класс. Поэтому я должен разделить свои данные на обучающие, проверочные и тестовые наборы. Сначала я перетасовываю свои данные (80 % для набора поездов и 20% для набора тестов). Затем, поскольку я должен определить некоторые гиперпараметры, я разделил свой набор поездов, используя 10-кратную перекрестную проверку. Наконец, я тренирую свою модель, используя набор поездов (80 % данных) и указанные гиперпараметры. У меня вопрос. Это неправильно, что я сначала перетасовываю свои данные, а затем разделяю их? Некоторые исследователи считают, что если вы хотите утверждать, что ваша модель может предсказать будущие данные, вам не следует перетасовывать данные. Вы должны выбрать последние 20% данных в качестве тестового набора. Это правильно? я могу перетасовать свои данные? не могли бы вы представить мне академическую книгу или статью для решения моей проблемы? большое спасибо

4

cross-validation shuffle

Источник

user1658325 30 апр '18 в 13:28

2 ответа

Другие вопросы по тегам cross-validation shuffle

user3486460 29 авг '18 в 06:37 2018-08-29 06:37 · Answer 1 · 2018-08-29 06:37

Независимо от какой-либо техники ML, могут быть разные способы оценки ваших результатов. В вашей задаче вы должны сначала перемешать данные, а затем разбить их на наборы поездов и тестов. Эта перестановка должна быть случайной; чтобы избежать смещения, повторите этот процесс несколько раз, а затем сообщите средние результаты. Вы также можете вычислить стандартное отклонение вашей погрешности / точности, чтобы увидеть, сильно ли меняются результаты или нет. Если да, то, возможно, ваша модель не обучается должным образом, и вам, возможно, придется попробовать другой метод, увеличить объем данных или сделать что-то еще. Чтобы узнать о типе проблемы НЛП, совет Goolge по тасованию можно проверить здесь. Шаг 3: Подготовьте свои данные

user1792854 30 апр '18 в 13:37 2018-04-30 13:37 · Answer 2 · 2018-04-30 13:37

Лучше перетасовать. Если порядок примеров таков, что более ранние примеры отличаются от более поздних, разделение по порядку может привести к значительному различию данных обучения и испытаний, что сделает перекрестную проверку менее значимой. Перемешивание уменьшит вероятность этого.