Обнаружение экстремумов в разнице гауссовых изображений в SIFT
У меня есть вопрос о работе алгоритма SIFT. Итак, скажем, у меня есть масштабное представление отдельных изображений во многих октавах путем свертки изображения с гауссовыми фильтрами различных размеров. Кроме того, я вычислил разность гауссовых (DoG) изображений для каждой из этих октав.
Предположим, у меня есть 7 изображений DoG для данной октавы. Мой вопрос касается нахождения максимумов в этих изображениях DoG. Согласно литературным данным, каждый сравнивается с 8 локальными соседями и 9 соседями для каждого из соседних изображений DoG.
Итак, теперь скажите, что я обрабатываю эти 7 изображений DoG, и я начну с индекса 1 и перейду до индекса 5. Итак, что-то вроде:
for (int i = 1; i <= 5; ++i)
{
for (int y = 1; y < image_height-1; ++y)
{
for (int x = 1; x < image_width-1; ++x)
{
current_pixel = image[x, y, i];
// Compare with the neighbours
// check if it is a maxima at loc (x, y, i)
}
}
}
Итак, здесь я перебираю изображение и проверю, является ли оно максимальным в этом месте. Теперь у меня вопрос: я получу максимумы в каждой из этих шкал (от 1 до 5 в моем случае). Таким образом, для данного (x, y) местоположения может быть несколько максимумов (например, в масштабе 1, 3 и 5). Итак, это проблема или может быть несколько ключевых точек, связанных для одного и того же пространственного местоположения (x, y)? Может кто-нибудь объяснить мне, как алгоритм работает для уточнения этих ключевых точек?
1 ответ
Вы также захотите найти экстремумы в масштабе.
Обнаружение экстремумов в масштабном пространстве означает поиск экстремума для каждого пикселя в "масштабе" и в "пространстве". Пространство - это плоскость xy на изображении. Пространство является указателем в пирамиду.
Что ты хочешь сделать?
Идея обнаружения экстремумов в масштабном пространстве состоит в том, чтобы найти масштаб, при котором объект имеет самый высокий отклик. Например, если у вас есть маленький шарик на изображении. Его экстремум будет в мелком масштабе. В крупном масштабе этот маленький шарик будет размыт.
Для большого двоичного объекта вычисление оценки в мелком масштабе не приводит к экстремуму. Но, если масштаб достаточно груб, капля будет выделяться. То есть для более грубых уровней пирамиды меньшие структуры вокруг этого маленького шарика будут размыты, и большой шарик будет выделяться.