Определение порога для соответствия объектов при геометрическом перераспределении
Я реализую кэш для приложений виртуальной реальности: при заданном запросе входного изображения вернуть результат, связанный с наиболее визуально похожим кэшированным изображением (то есть с ранее обработанным запросом), если расстояние между представлением запроса и представлением кэшированного изображения меньше, чем определенный порог. Наш кеш относительно небольшой и содержит 10 тыс. Изображений.
Мы используем коды VLAD [ 1] в качестве представления изображения, поскольку они очень компактны и невероятно быстро вычисляются (около 1 мс).
Однако в [ 2] было показано, что расстояние между кодом запроса и изображениями в наборе данных (в данном случае в кеше) сильно отличается от запроса к запросу, поэтому найти абсолютный порог нетривиально. В той же работе предлагается метод для приложений обнаружения объектов, который не имеет отношения к этому контексту (мы возвращаем только самое похожее изображение, а не все и только изображения, содержащие тему запроса).
[ 3] предлагает очень точный метод, но в то же время он очень дорогой и возвращает короткие списки. Он основан на повторном ранжировании соответствия пространственных объектов, и если вы хотите узнать больше деталей, цитируемый раздел находится в конце этого вопроса. Я не специалист по компьютерному зрению, но этот шаг для меня очень напоминает использование Feature Matcher в коротком списке элементов top-k в соответствии с представлением изображения и их ранжирование в зависимости от количества функций соответствует. Мой первый вопрос: это правильно?
В нашем случае такой подход не является проблемой, так как в большинстве 10 самых похожих кодов VLAD содержится тема запроса, поэтому мы должны выполнить этот шаг пространственного сопоставления только для 10 изображений.
Однако в этот момент у меня возникает второй вопрос: если у нас была проблема определения абсолютного порога для представлений изображений (в виде кодов VLAD), сохраняется ли эта проблема при таком подходе? В первом случае порогом было "расстояние L2 между кодом VLAD запроса и ближайшим кодом VLAD", здесь вместо этого пороговое значение будет представлять "число признаков, сопоставленных между изображением запроса и изображением, ближайшим к изображению с использованием кодов VLAD".,
Конечно, мой второй вопрос имеет смысл, если первый вопрос положительный.
Подход [ 3]:
Геометрическое повторное ранжирование проверяет глобальную геометрическую согласованность между совпадениями (Lowe 2004; Philbin et al. 2007) для краткого списка изображений в базе данных, возвращаемых системой поиска изображений. Здесь мы реализуем подход Лоу (2004) и применяем его к короткому списку из 200 изображений. Сначала мы получаем набор совпадений, т. Е. Каждый дескриптор изображения запроса сопоставляется с 10 ближайшими во всех изображениях из короткого списка. Затем мы оценим аффинное 2D преобразование в два этапа. Во-первых, схема Хафа оценивает трансформацию с 4 степенями свободы. Каждая пара совпадающих областей генерирует набор параметров, которые "голосуют" в гистограмме 4D. На втором этапе наборы совпадений из самых больших элементов разрешения используются для оценки более точного двумерного аффинного преобразования. Изображения, для которых геометрическая оценка успешна, возвращаются в первые позиции и ранжируются с оценкой, основанной на количестве вкладышей. Изображения, для которых оценка не удалась, добавляются к геометрически подобранным без изменения их порядка.