La visión estéreo por computadora es la extracción de información 3D a partir de imágenes digitales, como las obtenidas por una cámara CCD . Al comparar información sobre una escena desde dos puntos de vista, se puede extraer información 3D examinando las posiciones relativas de los objetos en los dos paneles. Esto es similar al proceso biológico de la estereopsis .
En la visión estéreo tradicional, se utilizan dos cámaras, desplazadas horizontalmente una de otra, para obtener dos vistas diferentes de una escena, de manera similar a la visión binocular humana . Al comparar estas dos imágenes, la información de profundidad relativa se puede obtener en forma de un mapa de disparidad , que codifica la diferencia en las coordenadas horizontales de los puntos de imagen correspondientes . Los valores en este mapa de disparidad son inversamente proporcionales a la profundidad de la escena en la ubicación del píxel correspondiente.
Para que un ser humano pueda comparar las dos imágenes, éstas deben superponerse en un dispositivo estereoscópico, mostrando la imagen de la cámara derecha al ojo derecho del observador y la de la izquierda al ojo izquierdo.
En un sistema de visión por computadora, se requieren varios pasos de preprocesamiento. [1]
La visión estéreo activa es una forma de visión estéreo que emplea activamente una luz como un láser o una luz estructurada para simplificar el problema de coincidencia estéreo. El término opuesto es visión estéreo pasiva.
La visión de luz estructurada (SLV) convencional emplea una luz estructurada o láser y encuentra correspondencias entre proyector y cámara. [2] [3]
La visión estéreo activa (ASV) convencional emplea una luz estructurada o un láser, sin embargo, la coincidencia estéreo se realiza sólo para las correspondencias cámara-cámara, de la misma manera que la visión estéreo pasiva.
Existe una técnica híbrida, que utiliza correspondencias tanto entre cámara como entre proyector y cámara. [4]
Las pantallas estéreo 3D encuentran muchas aplicaciones en entretenimiento, transferencia de información y sistemas automatizados. La visión estéreo es muy importante en campos como la robótica para extraer información sobre la posición relativa de objetos 3D en las proximidades de sistemas autónomos. Otras aplicaciones de la robótica incluyen el reconocimiento de objetos , [5] donde la información de profundidad permite que el sistema separe los componentes de la imagen que ocluyen, como una silla frente a otra, que de otro modo el robot no podría distinguir como un objeto separado por ningún otro. criterios.
Las aplicaciones científicas de la visión estéreo digital incluyen la extracción de información de levantamientos aéreos , para el cálculo de mapas de contorno o incluso la extracción de geometría para mapeo de edificios en 3D, mapeo fotogramétrico por satélite, [6] o cálculo de información heliográfica en 3D como la obtenida por el proyecto STEREO de la NASA. .
Un píxel registra el color en una posición. La posición se identifica por la posición en la cuadrícula de píxeles (x, y) y la profundidad del píxel z.
La visión estereoscópica proporciona dos imágenes de la misma escena, desde diferentes posiciones. En el diagrama adyacente , la luz del punto A se transmite a través de los puntos de entrada de las cámaras estenopeicas en B y D , a las pantallas de imágenes en E y H.
En el diagrama adjunto, la distancia entre los centros de las dos lentes de la cámara es BD = BC + CD . Los triángulos son semejantes
Entonces, suponiendo que las cámaras están niveladas y los planos de la imagen son planos en el mismo plano, el desplazamiento en el eje y entre el mismo píxel en las dos imágenes es,
Donde k es la distancia entre las dos cámaras multiplicada por la distancia desde la lente a la imagen.
El componente de profundidad en las dos imágenes es y , dado por,
Estas fórmulas permiten la oclusión de vóxeles , vistos en una imagen en la superficie del objeto, por vóxeles más cercanos vistos en la otra imagen, en la superficie del objeto.
Cuando los planos de la imagen no son coplanares, se requiere rectificación de la imagen para ajustar las imágenes como si fueran coplanares. Esto se puede lograr mediante una transformación lineal.
Es posible que también sea necesario rectificar las imágenes para que cada imagen sea equivalente a la imagen tomada con una cámara estenopeica que se proyecta en un plano.
La suavidad es una medida de la similitud de los colores. Dada la suposición de que un objeto distinto tiene una pequeña cantidad de colores, es más probable que los píxeles de colores similares pertenezcan a un solo objeto que a varios objetos.
El método descrito anteriormente para evaluar la suavidad se basa en la teoría de la información y en la suposición de que la influencia del color de un vóxel influye en el color de los vóxeles cercanos según la distribución normal de la distancia entre puntos. El modelo se basa en suposiciones aproximadas sobre el mundo.
Otro método basado en suposiciones previas de suavidad es la autocorrelación.
La suavidad es una propiedad del mundo más que una propiedad intrínseca de una imagen. Una imagen que comprenda puntos aleatorios no tendría suavidad y las inferencias sobre puntos vecinos serían inútiles.
En principio, la suavidad, como ocurre con otras propiedades del mundo, debe aprenderse. Esto parece ser lo que hace el sistema de visión humano. [ cita necesaria ]
La distribución normal es
La probabilidad está relacionada con el contenido de la información descrito por la longitud del mensaje L ,
entonces,
A los efectos de comparar imágenes estereoscópicas, sólo importa la longitud relativa del mensaje. En base a esto, la medida de información I , llamada Suma de Cuadrados de Diferencias (SSD) es,
dónde,
Debido al costo en tiempo de procesamiento de elevar números al cuadrado en SSD, muchas implementaciones utilizan la suma de diferencias absolutas (SAD) como base para calcular la medida de información. Otros métodos utilizan correlación cruzada normalizada (NCC).
La medida de mínimos cuadrados se puede utilizar para medir el contenido de información de las imágenes estereoscópicas, [7] dadas las profundidades en cada punto . En primer lugar, se deriva la información necesaria para expresar una imagen en términos de la otra. Se llama .
Se debe utilizar una función de diferencia de color para medir de manera justa la diferencia entre colores. La función de diferencia de color se escribe cd a continuación. La medida de la información necesaria para registrar la coincidencia de colores entre las dos imágenes es,
Se hace una suposición sobre la suavidad de la imagen. Supongamos que es más probable que dos píxeles sean del mismo color cuanto más cercanos estén los vóxeles que representan. Con esta medida se pretende favorecer que los colores similares se agrupen en la misma profundidad. Por ejemplo, si un objeto delante ocluye un área de cielo detrás, la medida de suavidad favorece que todos los píxeles azules se agrupen a la misma profundidad.
La medida total de suavidad utiliza la distancia entre vóxeles como estimación de la desviación estándar esperada de la diferencia de color.
El contenido total de información es entonces la suma,
El componente z de cada píxel debe elegirse para dar el valor mínimo para el contenido de la información. Esto le dará las profundidades más probables en cada píxel. La medida mínima de información total es,
Las funciones de profundidad para las imágenes izquierda y derecha son el par,
El problema de minimización es NP-completo . Esto significa que tomará mucho tiempo alcanzar una solución general a este problema. Sin embargo, existen métodos para computadoras basados en heurísticas que aproximan el resultado en un período de tiempo razonable. También existen métodos basados en redes neuronales . [8] La implementación eficiente de la visión estereoscópica es un área de investigación activa.
{{cite journal}}
: CS1 maint: numeric names: authors list (link)