Какой метод я должен использовать для классификации изображений?
Я работаю над проблемой классификации изображений, где я должен иметь возможность классифицировать изображение, как, например, часы с прямоугольным циферблатом / часы с круглым циферблатом / обувь и т. Д.
Я посмотрел на Content Based Image Retrieval (используя Dense SIFT для обнаружения функций и Bag of Words + SVM для классификации) и в настоящее время изучаю сверточные нейронные сети (обучение с использованием неконтролируемых функций).
Моя проблема в том, что изображение представляет собой фотографию, снятую с камеры, и, следовательно, содержит другие элементы (которых нет в данных тренировки). Например, мои данные о тренировках для часов с прямоугольными циферблатами содержат только часы, в то время как мое тестовое изображение также имеет часы и часть руки, или мое тестовое изображение обуви имеет обувь, ориентированную в другом направлении (по сравнению с данные тренировки для обуви).
Как мне решить эту проблему? Является ли CNN (неконтролируемое обучение функциям) правильным подходом или я должен придерживаться D-SIFT + BOW + SVM? Как я собираю соответствующие данные обучения?
Благодарю вас