Точность в оценке глубины - Stereo Vision

Я занимаюсь исследованием стереозрения и меня интересует точность оценки глубины в этом вопросе. Это зависит от нескольких факторов, таких как:

  • Правильная стереокалибровка (вращение, трансляция и извлечение искажений),
  • Разрешение изображения,
  • качество камеры и объектива (меньше искажений, правильная цветопередача),
  • соответствие функций между двумя изображениями.

Допустим, у нас нет недорогих камер и объективов (нет дешевых веб-камер и т. Д.).

У меня вопрос, какой точности оценки глубины мы можем достичь в этой области? Кто-нибудь знает настоящую систему стереозрения, которая работает с некоторой точностью? Можем ли мы достичь точности оценки глубины 1 мм?

Мой вопрос также нацелен на системы, реализованные в opencv. Какую точность вам удалось достичь?

3 ответа

Решение

Я бы добавил, что использование цвета - плохая идея даже для дорогих камер - просто используйте градиент интенсивности серого. Некоторые производители высококачественных стереокамер (например, Point Grey) использовали цвет, а затем переключались на серый. Также рассмотрите смещение и дисперсию как два компонента ошибки стереофонического согласования. Это важно, поскольку использование корреляционного стерео, например, с большим окном корреляции, приведет к усреднению глубины (т. Е. Моделирует мир как группу фронто-параллельных патчей) и уменьшит смещение при увеличении дисперсии и наоборот. Так что всегда есть компромисс.

Точность вашего стерео будет зависеть от специфики алгоритма больше, чем факторы, которые вы упомянули выше. Это зависит от алгоритма, который проверяет глубину (важный шаг после стерео оценки) и изящно исправляет дыры в бесструктурных областях. Например, рассмотрите возможность проверки в прямом и обратном направлении (при сопоставлении R к L должны появиться те же кандидаты, что и при сопоставлении с L по R), устранение блоб-шума (негауссовский шум, типичный для стереофонического сопоставления, удаленного с помощью алгоритма подключенного компонента), проверка текстуры (недопустимая глубина в областях со слабой текстурой), проверка уникальности (наличие унимодальной оценки соответствия без второго и третьего сильных кандидатов. Обычно это короткий путь к проверке back-and_force) и т. д. Точность также будет зависеть от шума датчика и динамики датчика спектр.

Наконец, вы должны задать свой вопрос о точности как функции глубины, поскольку d=f*B/z, где B - базовая линия между камерами, f - фокусное расстояние в пикселях, а z - расстояние по оптической оси. Таким образом, существует сильная зависимость точности от базовой линии и расстояния.

Kinect обеспечит точность 1 мм (смещение) с довольно большой дисперсией до 1 м или около того. Затем он резко падает. У Kinect будет мертвая зона до 50 см, поскольку нет достаточного перекрытия двух камер на близком расстоянии. И да - Kinect - это стереокамера, в которой одна из камер моделируется ИК-проектором.

Я уверен, что с вероятностным стерео, таким как распространение веры на случайных полях Маркова, можно добиться более высокой точности. Но эти методы предполагают некоторые сильные приоритеты относительно гладкости поверхностей объекта или конкретной ориентации поверхности. Смотрите это, например, стр. 14.

В. Кто-нибудь знает настоящую систему стереозрения, которая работает с некоторой точностью?Можем ли мы достичь точности оценки глубины 1 мм?

Да, вы определенно можете достичь точности оценки глубины 1 мм (и намного лучше) с помощью стереогарнитуры (черт возьми, вы можете проводить стерео разведку с помощью пары микроскопов). Системы контроля промышленных деталей на основе стерео с погрешностью в диапазоне 0,1 мм используются в обычном режиме и используются по крайней мере с начала 1990-х годов. Чтобы быть ясным, под "стерео-базой" я подразумеваю систему трехмерной реконструкции, использующую 2 или более геометрически разделенных датчика, где трехмерное местоположение точки определяется путем триангуляции согласованных изображений трехмерной точки в датчиках. Такая система может использовать структурированные проекторы света, чтобы помочь с согласованием изображения, однако, в отличие от надлежащей "системы трехмерного восстановления на основе структурированного света", она не полагается на калиброванную геометрию для самого проектора света.

Однако большинство (вероятно, все) такие стереосистемы, разработанные для высокой точности, используют либо ту или иную форму структурированного освещения, либо некоторую предварительную информацию о геометрии реконструированных форм (или их комбинацию), чтобыжестко ограничить соответствие точки для триангуляции. Причина в том, что, вообще говоря, можно триангулировать более точно, чем они могут соответствовать, поэтому точность соответствия является ограничивающим фактором для точности восстановления.

Один интуитивный способ понять, почему это так, - взглянуть на простую форму уравнения стереовосстановления: z = fb / d. Здесь "f" (фокусное расстояние) и "b" (базовая линия) суммируют свойства буровой установки, и они оцениваются калибровкой, тогда как "d" (диспаратность) выражает совпадение двух изображений одной и той же трехмерной точки.

Теперь, что особенно важно, параметры калибровки являются "глобальными", и они оцениваются на основе многих измерений, проведенных в поле зрения и диапазоне глубины, представляющих интерес. Следовательно, предполагая, что процедура калибровки является несмещенной и что система является приблизительно неизменной по времени, ошибки в каждом из измерений усредняются в оценках параметров. Таким образом, можно, проводя большое количество измерений и строго контролируя оптику, геометрию и окружающую среду буровой установки (включая вибрации, изменения температуры и влажности и т. Д.), Очень точно оценить параметры калибровки, то есть повлиять на несмещенные оценочные значения из-за неопределенности порядка разрешения датчика или, что лучше, так что эффектом их остаточных неточностей можно пренебречь в пределах известного объема пространства, в котором работает установка.

Однако различия являются точечными оценками: утверждается, что точка p на левом изображении совпадает (может быть) с точкой q на правом изображении, и любая ошибка в несоответствии d = (q - p) появляется в z, масштабируемой с помощью fb. Это одноразовая вещь. Хуже того, на оценку диспаратности во всех нетривиальных случаях влияют (априори неизвестная) геометрия и свойства поверхности анализируемого объекта, а также их взаимодействие с освещением. Они сговариваются - с помощью любого подходящего алгоритма сопоставления - чтобы снизить практическую точность реконструкции, которую можно достичь. Здесь помогает структурированное освещение, поскольку оно уменьшает неопределенность соответствия: основная идея состоит в том, чтобы проецировать острые, четко сфокусированные края на объект, который можно найти и сопоставить (часто с точностью до субпикселя) на изображениях. Существует множество методов структурированного освещения, поэтому я не буду вдаваться в подробности. Но я отмечаю, что это область, где использование цвета может очень помочь.

Таким образом, то, что вы можете достичь на практике, как обычно, зависит от того, сколько денег вы готовы потратить (лучшая оптика, датчик с низким уровнем шума, жесткие материалы и дизайн для механики буровой установки, контролируемое освещение) и от того, насколько хорошо вы понимаете и может ограничить вашу конкретную проблему реконструкции.

Если вы не хотите знать немного больше о точности подходов, взгляните на этот сайт, хотя он уже не очень активен, результаты в значительной степени современные. Примите во внимание, что пара представленных там документов была направлена ​​на создание компаний. Что вы имеете в виду с настоящей системой стереозрения? Если вы имеете в виду коммерческие, их не так много, большинство коммерческих систем реконструкции работают со структурированным освещением или непосредственно со сканерами. Это потому, что (вы пропустили один важный фактор в вашем списке), текстура является ключевым фактором для точности (или даже до этой правильности); белая стена не может быть восстановлена ​​стереосистемой, если не будет добавлена ​​текстура или структурированный свет. Тем не менее, по моему собственному опыту, системы, которые включают вариационное сопоставление, могут быть очень точными (субпиксельная точность в пространстве изображений), что, как правило, не достигается вероятностными подходами. Последнее замечание: расстояние между камерами также важно для точности: очень близко камеры найдут много правильных совпадений и быстро, но точность будет низкой, более отдаленные камеры найдут меньше совпадений, вероятно, потребуется больше времени, но результаты могут быть более точным; во многих книгах определена оптимальная коническая область. После всего этого, я могу сказать вам, что с помощью opencv лучшее, что вы можете сделать, это выполнить первоначальную калибровку камер, использовать оптический поток Брокса, чтобы найти совпадения и восстановить.

Другие вопросы по тегам