Обнаружение экстремумов в разнице гауссовых изображений в SIFT

У меня есть вопрос о работе алгоритма SIFT. Итак, скажем, у меня есть масштабное представление отдельных изображений во многих октавах путем свертки изображения с гауссовыми фильтрами различных размеров. Кроме того, я вычислил разность гауссовых (DoG) изображений для каждой из этих октав.

Предположим, у меня есть 7 изображений DoG для данной октавы. Мой вопрос касается нахождения максимумов в этих изображениях DoG. Согласно литературным данным, каждый сравнивается с 8 локальными соседями и 9 соседями для каждого из соседних изображений DoG.

Итак, теперь скажите, что я обрабатываю эти 7 изображений DoG, и я начну с индекса 1 и перейду до индекса 5. Итак, что-то вроде:

for (int i = 1; i <= 5; ++i)
{ 
   for (int y = 1; y < image_height-1; ++y)
   {
       for (int x = 1; x < image_width-1; ++x)
       {
           current_pixel = image[x, y, i];
           // Compare with the neighbours
           // check if it is a maxima at loc (x, y, i)
       }
   }
}

Итак, здесь я перебираю изображение и проверю, является ли оно максимальным в этом месте. Теперь у меня вопрос: я получу максимумы в каждой из этих шкал (от 1 до 5 в моем случае). Таким образом, для данного (x, y) местоположения может быть несколько максимумов (например, в масштабе 1, 3 и 5). Итак, это проблема или может быть несколько ключевых точек, связанных для одного и того же пространственного местоположения (x, y)? Может кто-нибудь объяснить мне, как алгоритм работает для уточнения этих ключевых точек?

1 ответ

Решение

Вы также захотите найти экстремумы в масштабе.

Обнаружение экстремумов в масштабном пространстве означает поиск экстремума для каждого пикселя в "масштабе" и в "пространстве". Пространство - это плоскость xy на изображении. Пространство является указателем в пирамиду.

Что ты хочешь сделать?

Идея обнаружения экстремумов в масштабном пространстве состоит в том, чтобы найти масштаб, при котором объект имеет самый высокий отклик. Например, если у вас есть маленький шарик на изображении. Его экстремум будет в мелком масштабе. В крупном масштабе этот маленький шарик будет размыт.

Для большого двоичного объекта вычисление оценки в мелком масштабе не приводит к экстремуму. Но, если масштаб достаточно груб, капля будет выделяться. То есть для более грубых уровней пирамиды меньшие структуры вокруг этого маленького шарика будут размыты, и большой шарик будет выделяться.

Другие вопросы по тегам