Выберите тренировочный и испытательный набор для сети MLP и Hopfield
У меня есть вопрос, касающийся выбора обучения и набора тестов для многослойного персептрона (MLP) и сети Хопфилда.
Например, предположим, что мы получили 100 шаблонов цифр 0-9, заданных в растровом формате. 10 из них являются идеальными цифрами, а остальные 90 искажены. Какой из этих шаблонов будет использоваться для тренировочного набора, а какой для тестового набора? Цель состоит в том, чтобы классифицировать цифры.
Я полагаю, что для сети Хопфилда идеальные цифры будут использоваться в качестве обучающего набора, но как насчет MLP? Один из подходов, о котором я подумал, состоял в том, чтобы взять, например, 70 искаженных цифр и использовать их в качестве обучающего набора вместе с соответствующими совершенными цифрами в качестве их предполагаемых целей. Правильный ли этот подход?
1 ответ
Отказ от ответственности: я раньше не работал с Hopfield Networks, поэтому я доверяю вам в ваших заявлениях по этому поводу, но в любом случае он не должен иметь такого большого значения для ответа.
Я также предполагаю, что вы хотите классифицировать цифры, чего вы явно не указали в своем вопросе.
Что касается правильного разделения: помимо того факта, что эти небольшие обучающие данные, как правило, не достижимы для получения достойных результатов для MLP (даже для такой простой задачи, как классификация цифр), маловероятно, что вы сможете " Предварительная маркировка "ваши данные обучения с точки зрения качества в большинстве реальных сценариев. Поэтому вы всегда должны предполагать, что данные, которые вы обрабатываете, по своей сути являются зашумленными. Хорошим примером этого является также тот факт, что расширение данных часто используется для обогащения вашего тренировочного корпуса. Поскольку увеличение данных может состоять из таких простых изменений, как
- добавлен шум
- незначительные повороты
- горизонтальное / вертикальное переключение (последнее имеет смысл только для цифр)
может улучшить вашу точность, это показывает, что визуальное качество и количество для обучения - это две разные вещи. Конечно, само по себе неверно, что количество само по себе решит вашу проблему (хотя исследования показывают, что по крайней мере полезно использовать очень много данных)
Кроме того, то, что вы считаете хорошим представлением, может сильно отличаться от точки зрения сети (хотя для маркировки цифр это может быть довольно легко определить). Поэтому достойная стратегия - просто выполнить случайную выборку для вашего обучения / разделения теста.
Что-то, что мне нравится делать при предварительной обработке набора данных, - это когда разделение выполняется, чтобы проверить, все ли классы представлены в разделениях несколько равномерно, так что вы не будете перебирать. Точно так же я бы сказал, что использование чистых / высококачественных изображений цифр как в тестовом, так и в обучающем наборе может иметь наибольшее значение, поскольку вы хотите, чтобы оба могли распознавать высококачественное число, а также небрежно написанную цифру и затем проверьте, можете ли вы его распознать (с помощью набора тестов).