stringtranslate.com

Visión estereoscópica por computadora

La visión estereoscópica por computadora es la extracción de información 3D de imágenes digitales, como las obtenidas por una cámara CCD . Al comparar la información sobre una escena desde dos puntos de vista, se puede extraer información 3D examinando las posiciones relativas de los objetos en los dos paneles. Esto es similar al proceso biológico de la estereopsis .

Describir

En la visión estereoscópica tradicional, se utilizan dos cámaras, desplazadas horizontalmente una de otra, para obtener dos vistas diferentes de una escena, de manera similar a la visión binocular humana . Al comparar estas dos imágenes, se puede obtener la información de profundidad relativa en forma de un mapa de disparidad , que codifica la diferencia en las coordenadas horizontales de los puntos de imagen correspondientes . Los valores en este mapa de disparidad son inversamente proporcionales a la profundidad de la escena en la ubicación del píxel correspondiente.

Para que un humano pueda comparar las dos imágenes, es necesario superponerlas en un dispositivo estereoscópico, de modo que la imagen de la cámara derecha se muestra al ojo derecho del observador y la de la izquierda al ojo izquierdo.

En un sistema de visión por computadora, se requieren varios pasos de preprocesamiento. [1]

  1. En primer lugar, la imagen debe estar desdistorsionada, de modo que se eliminen la distorsión de barril y la distorsión tangencial . Esto garantiza que la imagen observada coincida con la proyección de una cámara estenopeica ideal .
  2. La imagen debe proyectarse nuevamente en un plano común para permitir la comparación de los pares de imágenes, lo que se conoce como rectificación de imagen .
  3. Se minimiza una medida de información que compara las dos imágenes. Esto proporciona la mejor estimación de la posición de las características en las dos imágenes y crea un mapa de disparidad.
  4. Opcionalmente, el mapa de disparidad recibido se proyecta en una nube de puntos 3D . Al utilizar los parámetros proyectivos de las cámaras, la nube de puntos se puede calcular de manera que proporcione mediciones a una escala conocida.

Visión estereoscópica activa

La visión estereoscópica activa es una forma de visión estereoscópica que emplea activamente una luz, como un láser o una luz estructurada, para simplificar el problema de coincidencia estereoscópica. El término opuesto es visión estereoscópica pasiva.

Aplicaciones

Las pantallas estéreo 3D encuentran muchas aplicaciones en el entretenimiento, la transferencia de información y los sistemas automatizados. La visión estéreo es muy importante en campos como la robótica para extraer información sobre la posición relativa de los objetos 3D en las proximidades de los sistemas autónomos. Otras aplicaciones de la robótica incluyen el reconocimiento de objetos , [5] donde la información de profundidad permite que el sistema separe los componentes de la imagen que ocluyen, como una silla frente a otra, que de otro modo el robot no podría distinguir como un objeto separado por ningún otro criterio.

Las aplicaciones científicas de la visión estereoscópica digital incluyen la extracción de información de estudios aéreos , para el cálculo de mapas de contorno o incluso la extracción de geometría para el mapeo de edificios en 3D, el mapeo satelital fotogramétrico o el cálculo de información heliográfica en 3D como la obtenida por el proyecto STEREO de la NASA .

Definición detallada

Diagrama que describe la relación entre el desplazamiento de la imagen y la profundidad con imágenes estereoscópicas, asumiendo imágenes coplanares planas

Un píxel registra el color en una posición. La posición se identifica por la posición en la cuadrícula de píxeles (x, y) y la profundidad del píxel z.

La visión estereoscópica proporciona dos imágenes de la misma escena desde diferentes posiciones. En el diagrama adyacente, la luz procedente del punto A se transmite a través de los puntos de entrada de las cámaras estenopeicas en B y D hacia las pantallas de imagen en E y H.

En el diagrama adjunto la distancia entre los centros de las dos lentes de la cámara es BD = BC + CD . Los triángulos son semejantes.

Entonces, suponiendo que las cámaras están niveladas y los planos de imagen están planos en el mismo plano, el desplazamiento en el eje y entre el mismo píxel en las dos imágenes es,

Donde k es la distancia entre las dos cámaras multiplicada por la distancia desde la lente hasta la imagen.

Los componentes de profundidad en las dos imágenes son y , dados por,

Estas fórmulas permiten la oclusión de vóxeles , vistos en una imagen en la superficie del objeto, por vóxeles más cercanos vistos en la otra imagen, en la superficie del objeto.

Rectificación de imagen

Cuando los planos de la imagen no son coplanares, se requiere una rectificación de la imagen para ajustar las imágenes como si fueran coplanares. Esto se puede lograr mediante una transformación lineal.

Las imágenes también pueden necesitar rectificación para que cada imagen sea equivalente a la imagen tomada con una cámara estenopeica proyectada sobre una superficie plana.

Suavidad

La uniformidad es una medida de la similitud de los colores. Suponiendo que un objeto distinto tiene una pequeña cantidad de colores, es más probable que los píxeles de colores similares pertenezcan a un solo objeto que a varios.

El método descrito anteriormente para evaluar la suavidad se basa en la teoría de la información y en la suposición de que la influencia del color de un vóxel influye en el color de los vóxeles cercanos según la distribución normal de la distancia entre puntos. El modelo se basa en suposiciones aproximadas sobre el mundo.

Otro método basado en supuestos previos de suavidad es la autocorrelación.

La suavidad es una propiedad del mundo, no una propiedad intrínseca de una imagen. Una imagen compuesta por puntos aleatorios no tendría suavidad y las inferencias sobre los puntos vecinos serían inútiles.

En principio, la suavidad, al igual que otras propiedades del mundo, debería aprenderse. Esto parece ser lo que hace el sistema de visión humano. [ cita requerida ]

Medida de información

Medida de información de mínimos cuadrados

La distribución normal es

La probabilidad está relacionada con el contenido de la información descrito por la longitud del mensaje L ,

entonces,

A los efectos de comparar imágenes estereoscópicas, solo importa la longitud relativa del mensaje. En base a esto, la medida de información I , llamada Suma de Cuadrados de Diferencias (SSD) es,

dónde,

Debido al costo en tiempo de procesamiento que supone elevar al cuadrado los números en SSD, muchas implementaciones utilizan la suma de diferencias absolutas (SAD) como base para calcular la medida de información. Otros métodos utilizan la correlación cruzada normalizada (NCC).

Medida de información para imágenes estereoscópicas

La medida de mínimos cuadrados se puede utilizar para medir el contenido de información de las imágenes estereoscópicas, [6] dadas las profundidades en cada punto . En primer lugar, se deriva la información necesaria para expresar una imagen en términos de la otra. Esto se denomina .

Se debe utilizar una función de diferencia de color para medir de forma justa la diferencia entre colores. La función de diferencia de color se escribe cd a continuación. La medida de la información necesaria para registrar la coincidencia de colores entre las dos imágenes es,

Se hace una suposición sobre la suavidad de la imagen. Suponga que es más probable que dos píxeles sean del mismo color cuanto más cerca estén los vóxeles que representan. Esta medida tiene como objetivo favorecer que los colores que son similares se agrupen a la misma profundidad. Por ejemplo, si un objeto en el frente ocluye un área del cielo detrás, la medida de suavidad favorece que los píxeles azules se agrupen todos juntos a la misma profundidad.

La medida total de suavidad utiliza la distancia entre vóxeles como una estimación de la desviación estándar esperada de la diferencia de color.

El contenido total de información es entonces la suma,

El componente z de cada píxel debe elegirse para obtener el valor mínimo del contenido de información. Esto dará las profundidades más probables en cada píxel. La medida de información total mínima es:

Las funciones de profundidad para las imágenes izquierda y derecha son el par,

Métodos de implementación

El problema de minimización es NP-completo . Esto significa que se necesitará mucho tiempo para alcanzar una solución general a este problema. Sin embargo, existen métodos para computadoras basados ​​en heurísticas que aproximan el resultado en un tiempo razonable. También existen métodos basados ​​en redes neuronales . [7] La ​​implementación eficiente de la visión estereoscópica es un área de investigación activa.

Véase también

Referencias

  1. ^ Bradski, Gary; Kaehler, Adrian. Aprendiendo OpenCV: Visión artificial con la biblioteca OpenCV . O'Reilly.
  2. ^ Je, Changsoo; Lee, Sang Wook; Park, Rae-Hong (2004). "Patrón de franjas de color de alto contraste para imágenes rápidas de rangos de luz estructurada". Visión artificial - ECCV 2004. Apuntes de clase en informática. Vol. 3021. págs. 95–107. arXiv : 1508.04981 . doi :10.1007/978-3-540-24670-1_8. ISBN 978-3-540-21984-2. Número de identificación del sujeto  13277591.
  3. ^ Je, Changsoo; Lee, Sang Wook; Park, Rae-Hong (2012). "Patrón de permutación de franjas de color para la obtención rápida de imágenes de rangos de luz estructurada". Optics Communications . 285 (9): 2320–2331. Código Bibliográfico :2012OptCo.285.2320J. doi :10.1016/j.optcom.2012.01.025.
  4. ^ Jang, Wonkwi; Je, Changsoo; Seo, Yongduek; Lee, Sang Wook (2013). "Estéreo con luz estructurada: análisis comparativo e integración de luz estructurada y estéreo activo para medir la forma dinámica". Óptica y láseres en ingeniería . 51 (11): 1255–1264. Bibcode :2013OptLE..51.1255J. doi :10.1016/j.optlaseng.2013.05.001.
  5. ^ Sumi, Yasushi; Kawai, Yoshihiro; Yoshimi, Takashi; Tomita, Fumiaki (2002). "Reconocimiento de objetos 3D en entornos desordenados mediante visión estereoscópica basada en segmentos". Revista internacional de visión por computadora . 46 (1): 5–23. doi :10.1023/A:1013240031067. S2CID  22926546.
  6. ^ Lázaros, Nalpantidis; Sirakoulis, Georgios Christou; Gasteratos1, Antonios (2008). "Revisión de algoritmos de visión estéreo: del software al hardware". Revista Internacional de Optomecatrónica . 2 (4): 435–462. doi : 10.1080/15599610802438680 . S2CID  18115413.{{cite journal}}: CS1 maint: numeric names: authors list (link)
  7. ^ WANG, JUNG-HUA; HSIAO, CHIH-PING (1999). "Sobre la correspondencia de disparidades en la visión estereoscópica a través de un marco de trabajo de red neuronal". Proc. Natl. Sci. Council. ROC(A) . 23 (5): 665–678. CiteSeerX 10.1.1.105.9067 . 

Enlaces externos