Visión estéreo por computadora

La visión estéreo por computadora es la extracción de información 3D a partir de imágenes digitales, como las obtenidas por una cámara CCD . Al comparar información sobre una escena desde dos puntos de vista, se puede extraer información 3D examinando las posiciones relativas de los objetos en los dos paneles. Esto es similar al proceso biológico de la estereopsis .

Describir

En la visión estéreo tradicional, se utilizan dos cámaras, desplazadas horizontalmente una de otra, para obtener dos vistas diferentes de una escena, de manera similar a la visión binocular humana . Al comparar estas dos imágenes, la información de profundidad relativa se puede obtener en forma de un mapa de disparidad , que codifica la diferencia en las coordenadas horizontales de los puntos de imagen correspondientes . Los valores en este mapa de disparidad son inversamente proporcionales a la profundidad de la escena en la ubicación del píxel correspondiente.

Para que un ser humano pueda comparar las dos imágenes, éstas deben superponerse en un dispositivo estereoscópico, mostrando la imagen de la cámara derecha al ojo derecho del observador y la de la izquierda al ojo izquierdo.

En un sistema de visión por computadora, se requieren varios pasos de preprocesamiento. ^[1]

En primer lugar, la imagen debe estar sin distorsión, de modo que se eliminen la distorsión de barril y la distorsión tangencial . Esto asegura que la imagen observada coincida con la proyección de una cámara estenopeica ideal .
La imagen debe proyectarse de nuevo a un plano común para permitir la comparación de los pares de imágenes, lo que se conoce como rectificación de imagen .
Se minimiza una medida de información que compara las dos imágenes. Esto proporciona la mejor estimación de la posición de las características en las dos imágenes y crea un mapa de disparidad.
Opcionalmente, el mapa de disparidad recibido se proyecta en una nube de puntos 3D . Al utilizar los parámetros proyectivos de las cámaras, la nube de puntos se puede calcular de manera que proporcione mediciones a una escala conocida.

Visión estéreo activa

La visión estéreo activa es una forma de visión estéreo que emplea activamente una luz como un láser o una luz estructurada para simplificar el problema de coincidencia estéreo. El término opuesto es visión estéreo pasiva.

Visión de luz estructurada convencional (SLV)

La visión de luz estructurada (SLV) convencional emplea una luz estructurada o láser y encuentra correspondencias entre proyector y cámara. ^[2]^[3]

Visión estéreo activa convencional (ASV)

La visión estéreo activa (ASV) convencional emplea una luz estructurada o un láser, sin embargo, la coincidencia estéreo se realiza sólo para las correspondencias cámara-cámara, de la misma manera que la visión estéreo pasiva.

Estéreo de luz estructurada (SLS)

Existe una técnica híbrida, que utiliza correspondencias tanto entre cámara como entre proyector y cámara. ^[4]

Aplicaciones

Las pantallas estéreo 3D encuentran muchas aplicaciones en entretenimiento, transferencia de información y sistemas automatizados. La visión estéreo es muy importante en campos como la robótica para extraer información sobre la posición relativa de objetos 3D en las proximidades de sistemas autónomos. Otras aplicaciones de la robótica incluyen el reconocimiento de objetos , ^[5] donde la información de profundidad permite que el sistema separe los componentes de la imagen que ocluyen, como una silla frente a otra, que de otro modo el robot no podría distinguir como un objeto separado por ningún otro. criterios.

Las aplicaciones científicas de la visión estéreo digital incluyen la extracción de información de levantamientos aéreos , para el cálculo de mapas de contorno o incluso la extracción de geometría para mapeo de edificios en 3D, mapeo fotogramétrico por satélite, ^{[6] o cálculo de información}heliográfica en 3D como la obtenida por el proyecto STEREO de la NASA. .

Definición detallada

Un píxel registra el color en una posición. La posición se identifica por la posición en la cuadrícula de píxeles (x, y) y la profundidad del píxel z.

La visión estereoscópica proporciona dos imágenes de la misma escena, desde diferentes posiciones. En el diagrama adyacente , la luz del punto A se transmite a través de los puntos de entrada de las cámaras estenopeicas en B y D , a las pantallas de imágenes en E y H.

En el diagrama adjunto, la distancia entre los centros de las dos lentes de la cámara es BD = BC + CD . Los triángulos son semejantes

ACB y BFE
ACD y DGH

${\begin{aligned}{\text{Therefore displacement }}d&=EF+GH\\&=BF({\frac {EF}{BF}}+{\frac {GH}{BF}})\\&=BF({\frac {EF}{BF}}+{\frac {GH}{DG}})\\&=BF({\frac {BC+CD}{AC}})\\&=BF{\frac {BD}{AC}}\\&={\frac {k}{z}}{\text{, where}}\\\end{aligned}}$

k = BD BF
z = AC es la distancia desde el plano de la cámara al objeto.

Entonces, suponiendo que las cámaras están niveladas y los planos de la imagen son planos en el mismo plano, el desplazamiento en el eje y entre el mismo píxel en las dos imágenes es,

d={\frac {k}{z}}

Donde k es la distancia entre las dos cámaras multiplicada por la distancia desde la lente a la imagen.

El componente de profundidad en las dos imágenes es y , dado por, $z_{1}$ $z_{2}$

z_{2}(x,y)=\min \left\{v:v=z_{1}(x,y-{\frac {k}{z_{1}(x,y)}})\right\}

z_{1}(x,y)=\min \left\{v:v=z_{2}(x,y+{\frac {k}{z_{2}(x,y)}})\right\}

Estas fórmulas permiten la oclusión de vóxeles , vistos en una imagen en la superficie del objeto, por vóxeles más cercanos vistos en la otra imagen, en la superficie del objeto.

Rectificación de imagen

Cuando los planos de la imagen no son coplanares, se requiere rectificación de la imagen para ajustar las imágenes como si fueran coplanares. Esto se puede lograr mediante una transformación lineal.

Es posible que también sea necesario rectificar las imágenes para que cada imagen sea equivalente a la imagen tomada con una cámara estenopeica que se proyecta en un plano.

Suavidad

La suavidad es una medida de la similitud de los colores. Dada la suposición de que un objeto distinto tiene una pequeña cantidad de colores, es más probable que los píxeles de colores similares pertenezcan a un solo objeto que a varios objetos.

El método descrito anteriormente para evaluar la suavidad se basa en la teoría de la información y en la suposición de que la influencia del color de un vóxel influye en el color de los vóxeles cercanos según la distribución normal de la distancia entre puntos. El modelo se basa en suposiciones aproximadas sobre el mundo.

Otro método basado en suposiciones previas de suavidad es la autocorrelación.

La suavidad es una propiedad del mundo más que una propiedad intrínseca de una imagen. Una imagen que comprenda puntos aleatorios no tendría suavidad y las inferencias sobre puntos vecinos serían inútiles.

En principio, la suavidad, como ocurre con otras propiedades del mundo, debe aprenderse. Esto parece ser lo que hace el sistema de visión humano. ^{[ cita necesaria ]}

Medida de información

Medida de información de mínimos cuadrados

La distribución normal es

P(x,\mu ,\sigma )={\frac {1}{\sigma {\sqrt {2\pi }}}}e^{-{\frac {(x-\mu )^{2}}{2\sigma ^{2}}}}

La probabilidad está relacionada con el contenido de la información descrito por la longitud del mensaje L ,

P(x)=2^{-L(x)}

L(x)=-\log _{2}{P(x)}

entonces,

L(x,\mu ,\sigma )=\log _{2}(\sigma {\sqrt {2\pi }})+{\frac {(x-\mu )^{2}}{2\sigma ^{2}}}\log _{2}e

A los efectos de comparar imágenes estereoscópicas, sólo importa la longitud relativa del mensaje. En base a esto, la medida de información I , llamada Suma de Cuadrados de Diferencias (SSD) es,

I(x,\mu ,\sigma )={\frac {(x-\mu )^{2}}{\sigma ^{2}}}

dónde,

L(x,\mu ,\sigma )=\log _{2}(\sigma {\sqrt {2\pi }})+I(x,\mu ,\sigma ){\frac {\log _{2}e}{2}}

Debido al costo en tiempo de procesamiento de elevar números al cuadrado en SSD, muchas implementaciones utilizan la suma de diferencias absolutas (SAD) como base para calcular la medida de información. Otros métodos utilizan correlación cruzada normalizada (NCC).

Medida de información para imágenes estereoscópicas.

La medida de mínimos cuadrados se puede utilizar para medir el contenido de información de las imágenes estereoscópicas, ^[7] dadas las profundidades en cada punto . En primer lugar, se deriva la información necesaria para expresar una imagen en términos de la otra. Se llama . $z(x,y)$ $I_{m}$

Se debe utilizar una función de diferencia de color para medir de manera justa la diferencia entre colores. La función de diferencia de color se escribe cd a continuación. La medida de la información necesaria para registrar la coincidencia de colores entre las dos imágenes es,

I_{m}(z_{1},z_{2})={\frac {1}{\sigma _{m}^{2}}}\sum _{x,y}\operatorname {cd} (\operatorname {color} _{1}(x,y+{\frac {k}{z_{1}(x,y)}}),\operatorname {color} _{2}(x,y))^{2}

Se hace una suposición sobre la suavidad de la imagen. Supongamos que es más probable que dos píxeles sean del mismo color cuanto más cercanos estén los vóxeles que representan. Con esta medida se pretende favorecer que los colores similares se agrupen en la misma profundidad. Por ejemplo, si un objeto delante ocluye un área de cielo detrás, la medida de suavidad favorece que todos los píxeles azules se agrupen a la misma profundidad.

La medida total de suavidad utiliza la distancia entre vóxeles como estimación de la desviación estándar esperada de la diferencia de color.

I_{s}(z_{1},z_{2})={\frac {1}{2\sigma _{h}^{2}}}\sum _{i:\{1,2\}}\sum _{x_{1},y_{1}}\sum _{x_{2},y_{2}}{\frac {\operatorname {cd} (\operatorname {color} _{i}(x_{1},y_{1}),\operatorname {color} _{i}(x_{2},y_{2}))^{2}}{(x_{1}-x_{2})^{2}+(y_{1}-y_{2})^{2}+(z_{i}(x_{1},y_{1})-z_{i}(x_{2},y_{2}))^{2}}}

El contenido total de información es entonces la suma,

I_{t}(z_{1},z_{2})=I_{m}(z_{1},z_{2})+I_{s}(z_{1},z_{2})

El componente z de cada píxel debe elegirse para dar el valor mínimo para el contenido de la información. Esto le dará las profundidades más probables en cada píxel. La medida mínima de información total es,

I_{\operatorname {min} }=\min {\{i:i=I_{t}(z_{1},z_{2})\}}

Las funciones de profundidad para las imágenes izquierda y derecha son el par,

(z_{1},z_{2})\in \{(z_{1},z_{2}):I_{t}(z_{1},z_{2})=I_{\operatorname {min} }\}

Métodos de implementación

El problema de minimización es NP-completo . Esto significa que tomará mucho tiempo alcanzar una solución general a este problema. Sin embargo, existen métodos para computadoras basados en heurísticas que aproximan el resultado en un período de tiempo razonable. También existen métodos basados en redes neuronales . ^[8] La implementación eficiente de la visión estereoscópica es un área de investigación activa.

Ver también

Reconstrucción 3D a partir de múltiples imágenes.
escáner 3D
Autoestereoscopia
Visión por computador
Geometría epipolar
Coincidencia semiglobal
Estructura a partir del movimiento
cámara estéreo
Estereofotogrametría
Estereopsis
Representación de profundidad estereoscópica
stixel
Tensor trifocal : para estereoscopía trifocal (utilizando tres imágenes en lugar de dos)

Referencias

^ Bradski, Gary; Kaehler, Adrián. Aprendizaje de OpenCV: visión por computadora con la biblioteca OpenCV . O'Reilly.
^ Je, Changsoo; Lee, Sang Wook; Park, Rae-Hong (2004). "Patrón de franjas de colores de alto contraste para obtener imágenes rápidas con un rango de luz estructurada". Visión por Computador - ECCV 2004 . Apuntes de conferencias sobre informática. vol. 3021, págs. 95-107. arXiv : 1508.04981 . doi :10.1007/978-3-540-24670-1_8. ISBN 978-3-540-21984-2. S2CID 13277591.
^ Je, Changsoo; Lee, Sang Wook; Park, Rae-Hong (2012). "Patrón de permutación de franjas de colores para obtener imágenes rápidas de rangos de luz estructurada". Comunicaciones Ópticas . 285 (9): 2320–2331. Código Bib : 2012OptCo.285.2320J. doi : 10.1016/j.optcom.2012.01.025.
^ Jang, Wonkwi; Je, Changsoo; Seo, Yongduek; Lee, Sang Wook (2013). "Estéreo de luz estructurada: análisis comparativo e integración de luz estructurada y estéreo activo para medir la forma dinámica". Óptica y Láseres en Ingeniería . 51 (11): 1255-1264. Código Bib : 2013OptLE..51.1255J. doi :10.1016/j.optlaseng.2013.05.001.
^ Sumi, Yasushi; Kawai, Yoshihiro; Yoshimi, Takashi; Tomita, Fumiaki (2002). "Reconocimiento de objetos 3D en entornos desordenados mediante visión estéreo basada en segmentos". Revista Internacional de Visión por Computadora . 46 (1): 5–23. doi :10.1023/A:1013240031067. S2CID 22926546.
^ Tártaro, Nurollah y otros. "Coincidencia estéreo satelital de alta resolución mediante coincidencia semiglobal basada en objetos y filtro de preservación de bordes guiado iterativo". Cartas de geociencia y teledetección del IEEE (2020): 1-5.
^ Lázaros, Nalpantidis; Sirakoulis, Georgios Christou; Gasteratos1, Antonios (2008). "Revisión de algoritmos de visión estéreo: del software al hardware". Revista Internacional de Optomecatrónica . 2 (4): 435–462. doi : 10.1080/15599610802438680 . S2CID 18115413.{{cite journal}}: CS1 maint: numeric names: authors list (link)
^ WANG, JUNG-HUA; HSIAO, CHIH-PING (1999). "Sobre la coincidencia de disparidades en visión estéreo a través de un marco de red neuronal". Proc. Nacional. Ciencia. Consejo. República de China (A) . 23 (5): 665–678. CiteSeerX 10.1.1.105.9067 .

enlaces externos

Tutorial sobre visión estéreo no calibrada.
Aprenda sobre la visión estéreo con MATLAB
Software de visión estéreo y navegación móvil para exploración planetaria