Распознавание объектов со стереоскопическим зрением
Я создаю статическую систему распознавания жестов, используя OpenCV Haar Cascade Classifier. В конечном итоге я хотел бы превратить эту систему распознавания в стереоскопическую систему распознавания. Вот мой вопрос, могу ли я взять систему двумерного распознавания, созданную классификатором Haar Cascade, и внедрить ее на обеих камерах, чтобы создать карту диспаратности после использования функций стереоскопической калибровки, содержащихся в OpenCV? Или мне нужно будет делать снимки с уже откалиброванной стереоскопической системой для создания каскадного классификатора?
Трудно найти хорошую информацию по этой теме, и я хотел бы спланировать свой проект и убедиться, что я делаю правильные вещи, прежде чем покупать и создавать все.
Благодарю.
1 ответ
Во-первых, вы должны уточнить, чего вы пытаетесь достичь.
Вам нужно обнаружить объект и затем локализовать его в трехмерных мировых координатах? Или вам нужна трехмерная информация, чтобы обнаружить объект в первую очередь?
В первом случае есть несколько способов пойти. Одним из них является калибровка системы стереокамер, обнаружение объекта в обеих камерах, а затем определение его трехмерного местоположения с помощью триангуляции. Например, вы можете триангулировать центр тяжести объекта. Проблема этого подхода заключается в том, что двумерная локализация детектора каскадных объектов может быть недостаточно точной, чтобы получить надежную трехмерную точку.
Другой способ - откалибровать ваши камеры, а затем исправить изображения, чтобы они выглядели так, как будто камеры параллельны и выровнены по ряду. Теперь вместо триангуляции определенных точек вы можете вычислить карту диспаратности для всего изображения и получить соответствующее трехмерное местоположение (теоретически) для любого пикселя. Теперь вы можете обнаружить интересующий вас объект в камере 1, а затем использовать карту диспаратности, чтобы найти трехмерное местоположение любой точки на объекте.
С другой стороны, если вы хотите использовать трехмерную информацию для улучшения своего обнаружения, вам придется ознакомиться с некоторыми недавними исследованиями. Например, вот статья об обнаружении людей с помощью датчиков RGB-D. В статье рассказывается о дескрипторе HOD (гистограмма ориентированных глубин), в отличие от дескриптора HOG. Причина, по которой это имеет значение, заключается в том, что если вы калибруете свои камеры и исправляете ваши изображения, вы можете получить карту глубины того же типа, что вы получаете от датчика RGB-D, например Kinect.