Необычная разрядная классификация с ДНН
Я думал об этой проблеме в течение некоторого времени, и я не нашел ответа, которым я вполне доволен.
Представьте, что мы обучили DNN в базе данных цифр MNIST, которая классифицирует наблюдения вне выборки с некоторой высокой точностью. Затем мы показываем DNN необычное изображение 4 и 3, как показано ниже. Будет ли DNN правильно его классифицировать? Я так не думаю, потому что в скрытом слое просто не будет элементов, присутствующих на изображении с необычными цифрами (различные скручивания), поэтому он может неправильно их классифицировать.
Я также думаю, что тренировка в базе данных таких необычных цифр была бы сложной. Как скрытые слои будут хранить (очень похожие) функции? Интуитивно понятно, что он будет соответствовать этой базе данных, потому что скрытые нейроны изучат все ненужные функции из-за сходства между завитками.
Я думаю, что способ обучения такого DNN состоит в том, чтобы каким-то образом выучить углы между "барами" / завитками, составляющими цифры, например, в цифре "4" есть прямой угол между барами, но я не слишком уверен. Я также не смог найти статью, посвященную этому вопросу.
2 ответа
Извините, но я думаю, что пытаться создавать функции, представляющие углы, не в духе DNN: весь смысл глубокого изучения заключается в том, что у вас больше нет возможности разрабатывать такие подробные функции вручную, но вы позволяете сети изучать их и обнаруживать наиболее важные функции для целевой задачи автоматически.
По вашему вопросу, более "основной" подход будет состоять в том, чтобы взять существующую базу данных цифр и испортить цифровые изображения таким образом, чтобы вы получили изображения, которые напоминают ваши примеры. Например, вы можете попытаться заменить прямые линии из N пикселей случайными кривизнами.
Этот тип подхода часто используется в глубоком обучении для увеличения набора обучающих данных и в то же время для повышения устойчивости сети к некоторому шуму. Следовательно, классические методы искажения состоят в переводе / повороте изображений цифр.
Но обратите внимание, что для двух изображений, которые вы показали, более простым решением может быть размытие или пикселизация или уменьшение четкости, или лучшее вычисление спектрального преобразования с отсечением, так что захватывается только глобальная / большая форма, а меньшие вариации фильтруются. из.
Если вы посмотрите на лучшие результаты на MNIST, вы увидите, что все они (в последний раз, когда я проверял) используют упругую деформацию в каждой эпохе во время обучения.
В вашем случае вы должны добавить такой тип деформации: упругие колебания (или?).
Если вы уверены, что у вас есть только этот тип информации, то вы можете попытаться упростить числа (основные части кривых вместо этих колебаний), а затем передать их вашему DNN.