В чем причина разделения данных на обучение / тестирование в СДЛ?
Я делаю исследование и читаю некоторые статьи, используя алгоритм SOM. Я не понимаю логику, согласно которой люди разбивают свой набор данных на учебные / тестовые наборы для SOM. Я имею в виду, например, что когда используется дерево решений C4.5, обученная структура включает в себя некоторые правила, которые должны применяться, когда приходит новый набор данных (тест) для классификации данных там. Однако, какие правила или что-то подобное генерируется после обучения системы через SOM? В чем разница, если я применю 100% своих данных к системе SOM, вместо этого сначала использую 30% для обучения, а затем 70% для тестирования? Спасибо за ваши ответы заранее.
2 ответа
Для каждой системы, которая зависит от данных, которая должна подвергаться воздействию новых данных в будущем, сохранение части существующих данных для проведения тестирования дает вам возможность надежно прогнозировать, как она будет прогнозироваться после ее развертывания. Для SOM вы изучаете конкретное встраивание данных. Если вы используете все свои данные для обучения, а затем хотите использовать эту обученную СДЛ для данных, которые ранее не видели - у вас нет никаких гарантий, как они будут себя вести (насколько хорошо это представление для поставленной задачи). Выдержка дает вам возможность протестировать это в контролируемой среде - вы тренируете представление SOM на части ваших данных, а затем применяете его для вставки (тест), который имитирует "что произойдет, если я получу новые данные и захочу использовать". мой СДЛ на нем ". То же самое относится к каждому алгоритму, использующему данные, независимо от того, контролируются они или нет, если вы собираетесь развертывать что-либо на основе этой модели, вам нужен набор тестов для создания уверенности в вашем собственном решении. Если, с другой стороны, вы просто проводите предварительный анализ "закрытого" набора данных - тогда ко всем из них можно просто применить неконтролируемые методы (если вы просто спрашиваете "какова структура в этом конкретном наборе данных).
Кажется, вы не понимаете, почему SOM (неконтролируемое машинное обучение) следует рассматривать как другие методы машинного обучения, поэтому вы делаете следующее заявление: "... обученная структура включает в себя некоторые правила, которые должны применяться, когда для классификации данных приходит новый набор данных (тест) там.."
В целом, во время обучения (в том числе SOM), вы стремитесь получить набор
final weights
(чтобы использовать ваши слова; "правила, которые будут применяться"), которые будут использоваться для нового, ранее невиданного набора данных. Учебный комплект должен включать в себя широкий спектр функций, как правило, хороший представитель того типа данных, к которому вы ожидаете применить его.
Это позволит final weights
быть максимально точным и надежным. Что касается того, "какие правила или что-то подобное генерируется после обучения системы через SOM?" final weights
составляющие "правила", которые должны применяться к любым новым данным, подвергаемым ЗВОЛ. Следовательно, СДЛ даст вам результаты на основе значений в его final weights
,
Разделение данных на обучение и тестирование поможет вам обрести уверенность в производительности обученного SOM, прежде чем запускать его в производство.
Тестовый набор, с другой стороны, позволяет увидеть, насколько хорошо работает обученный SOM. Вы сравниваете результаты тренировочного набора и тестирования. Это важно до того, как вы подадите заявку и начнете использовать SOM. Если вы обнаружите большие расхождения между результатами обучающего набора и испытательным набором, вам следует просмотреть обучающий набор - возможно, включить в обучающий набор более разнообразные функции.
Короче говоря, наличие обучающего и тестового набора может гарантировать вам производительность SOM, когда он будет реализован. Как указано здесь:
"... мы создаем тестовые разделы, чтобы предоставить нам честные оценки эффективности наших прогностических моделей. Никакое количество математических рассуждений и манипулирование результатами, основанными на данных обучения, не будет убедительным для опытного наблюдателя".