Чем отличаются ортогональные и перспективные модели камер по конструкции от движения?
Когда я просматривал другую литературу, я обнаружил, что структура из движения в предположении, что модель камеры является орфографической, в то время как в других источниках была перспективная проекция. и оба следуют двум различным методам.
Может кто-нибудь поделиться своим опытом об этом?
2 ответа
Скажем, у вас есть статическая сцена и движущаяся камера (или, что эквивалентно, жестко движущаяся сцена и статическая камера), и вы хотите восстановить геометрию сцены и движение камеры из двух или более изображений. Реконструкция обычно основана на получении точечных соответствий, то есть у вас есть некоторые уравнения, которые нужно решить для точек и движения камеры.
Решение может быть основано либо на нелинейной минимизации, либо на различных приближениях. Камера может быть аппроксимирована ортогональной или перспективной проекцией. В простейшем случае SFM камеру можно аппроксимировать ортогональной проекцией (или, в более общем случае, проекцией слабой перспективы), где сцену можно восстановить в масштабе. Но перемещение, перпендикулярное плоскости изображения, невозможно восстановить из-за свойств ортогональной проекции.
Более новые методы SfM используют перспективную проекцию, потому что с помощью ортографической проекции мы не можем восстановить всю информацию. С полной перспективной проекцией мы можем восстановить, например, перемещение по оптической оси. То есть геометрия и полное движение могут быть восстановлены до глобального масштабного коэффициента.
Чтобы понять, почему выбран каждый метод, нам нужно посмотреть на модель камеры, когда мы моделируем ее как орфографическую, и когда мы моделируем ее как перспективную.
Модель орфографической камеры - это особый случай, когда мы предполагаем, что расстояние сцены от центра проекции бесконечно. Это означает, что мы предполагаем, что нет никакого искажения, вызванного расстоянием между объектом и изображением. Как следствие мы ожидаем получить идентичность между координатой объекта в реальном мире и на изображении.
Так, например, если у нас есть треугольник в реальном мире в координатах (X1,Y1,Z1),(X2,Y2,Z2), (X3,Y3,Z3), мы ожидаем увидеть треугольник на изображении (x1,y1),(x2,y2),(x3,y3) были X1 = wx1 X2 = w x2.. Y1 = w * y1.. и так далее. где w - некоторый коэффициент масштабирования.
Когда это хорошее предположение? Обратите внимание, что я не принял во внимание значения Z каждой точки. Так что это предположение хорошо, когда мы смотрим на сцену, где расстояние от сцены до камеры почти постоянно.
Примечание. Это очень упрощенное объяснение, в котором не учитываются многие другие факторы, такие как искажение объектива самой камеры и многое другое.