Disparidad binocular

La disparidad binocular se refiere a la diferencia en la ubicación de la imagen de un objeto visto por los ojos izquierdo y derecho , que resulta de la separación horizontal de los ojos ( paralaje ). La mente utiliza la disparidad binocular para extraer información de profundidad de las imágenes retinianas bidimensionales en estereopsis . En visión por computadora , la disparidad binocular se refiere a la diferencia en las coordenadas de características similares dentro de dos imágenes estereoscópicas.

Se puede utilizar una disparidad similar en la medición de distancias mediante un telémetro de coincidencia para determinar la distancia y/o la altitud a un objetivo. En astronomía, la disparidad entre diferentes lugares de la Tierra se puede utilizar para determinar diversas paralajes celestes , y la órbita de la Tierra se puede utilizar para determinar el paralaje estelar .

Definición

Los ojos humanos están separados horizontalmente por unos 50–75 mm ( distancia interpupilar ) dependiendo de cada individuo. Por lo tanto, cada ojo tiene una visión ligeramente diferente del mundo que le rodea. Esto se puede ver fácilmente al cerrar alternativamente un ojo mientras mira un borde vertical. La disparidad binocular se puede observar a partir del aparente desplazamiento horizontal del borde vertical entre ambas vistas.

En cualquier momento dado, la línea de visión de los dos ojos se encuentra en un punto en el espacio. Este punto en el espacio se proyecta en la misma ubicación (es decir, el centro) en las retinas de los dos ojos. Sin embargo, debido a los diferentes puntos de vista observados por el ojo izquierdo y el derecho, muchos otros puntos en el espacio no caen en ubicaciones retinianas correspondientes. La disparidad visual binocular se define como la diferencia entre el punto de proyección en los dos ojos y generalmente se expresa en grados como el ángulo visual . ^[1]

El término "disparidad binocular" se refiere a las mediciones geométricas realizadas fuera del ojo. La disparidad de las imágenes en la retina real depende de factores internos al ojo, especialmente la ubicación de los puntos nodales, incluso si la sección transversal de la retina es un círculo perfecto. La disparidad en la retina se ajusta a la disparidad binocular cuando se mide en grados, mientras que es muy diferente si se mide en distancia debido a la complicada estructura interna del ojo.

Figura 1: El círculo negro completo es el punto de fijación. El objeto azul se encuentra más cerca del observador. Por lo tanto, tiene una disparidad de "cerca" d _n . Los objetos que se encuentran más lejos (verdes) tienen, en consecuencia, una disparidad de "lejos" d _f . La disparidad binocular es el ángulo entre dos líneas de proyección. Una de las cuales es la proyección real desde el objeto hasta el punto real de proyección. La otra es la proyección imaginaria que pasa por el punto nodal del punto de fijación.

En la visión artificial, la disparidad binocular se calcula a partir de imágenes estereoscópicas tomadas de un conjunto de cámaras estereoscópicas. La distancia variable entre estas cámaras, llamada línea base, puede afectar la disparidad de un punto específico en su respectivo plano de imagen. A medida que aumenta la línea base, la disparidad aumenta debido al mayor ángulo necesario para alinear la mira en el punto. Sin embargo, en la visión artificial, la disparidad binocular se denomina diferencias de coordenadas del punto entre las imágenes derecha e izquierda en lugar de un ángulo visual. Las unidades se miden generalmente en píxeles.

Engañando a las neuronas con imágenes 2D

Las células cerebrales ( neuronas ) de una parte del cerebro encargada de procesar la información visual procedente de las retinas ( corteza visual primaria ) pueden detectar la existencia de disparidad en la información que reciben de los ojos. En concreto, estas neuronas estarán activas si un objeto con "su" disparidad especial se encuentra dentro de la parte del campo visual a la que tienen acceso ( campo receptivo ). ^[2]

Los investigadores que estudian las propiedades precisas de estas neuronas con respecto a la disparidad presentan estímulos visuales con diferentes disparidades a las células y observan si están activas o no. Una posibilidad de presentar estímulos con diferentes disparidades es colocar objetos a diferentes profundidades frente a los ojos. Sin embargo, el inconveniente de este método puede ser que no sea lo suficientemente preciso para los objetos ubicados más lejos, ya que poseen disparidades menores, mientras que los objetos más cercanos tendrán mayores disparidades. En su lugar, los neurocientíficos utilizan un método alternativo, como se esquematiza en la Figura 2.

Figura 2: La disparidad de un objeto con una profundidad diferente a la del punto de fijación se puede producir alternativamente presentando una imagen del objeto a un ojo y una versión desplazada lateralmente de la misma imagen al otro ojo. El círculo negro completo es el punto de fijación. Los objetos a distintas profundidades se colocan a lo largo de la línea de fijación del ojo izquierdo. La misma disparidad producida a partir de un desplazamiento de la profundidad de un objeto (círculos de color rellenos) también se puede producir desplazando lateralmente el objeto a una profundidad constante en la imagen que ve un ojo (círculos negros con margen de color). Nótese que para las disparidades cercanas, el desplazamiento lateral tiene que ser mayor para corresponder a la misma profundidad en comparación con las disparidades lejanas. Esto es lo que los neurocientíficos suelen hacer con estímulos de puntos aleatorios para estudiar la selectividad de disparidad de las neuronas, ya que la distancia lateral necesaria para probar las disparidades es menor que las distancias requeridas utilizando pruebas de profundidad. Este principio también se ha aplicado en ilusiones de autoestereogramas .

Cálculo de la disparidad mediante imágenes estereoscópicas digitales

La disparidad de características entre dos imágenes estereoscópicas se calcula generalmente como un desplazamiento hacia la izquierda de una característica de la imagen cuando se ve en la imagen derecha. ^[3] Por ejemplo, un único punto que aparece en la coordenada x t (medida en píxeles ) en la imagen izquierda puede estar presente en la coordenada x t − 3 en la imagen derecha. En este caso, la disparidad en esa ubicación en la imagen derecha sería de 3 píxeles.

Las imágenes estereoscópicas no siempre están correctamente alineadas para permitir un cálculo rápido de la disparidad. Por ejemplo, el conjunto de cámaras puede estar ligeramente girado y desnivelado. Mediante un proceso conocido como rectificación de imagen , ambas imágenes se giran para permitir disparidades solo en la dirección horizontal (es decir, no hay disparidad en las coordenadas y de la imagen). ^[3] Esta es una propiedad que también se puede lograr mediante la alineación precisa de las cámaras estereoscópicas antes de la captura de la imagen.

Algoritmo informático

Después de la rectificación, el problema de correspondencia se puede resolver utilizando un algoritmo que escanea tanto la imagen izquierda como la derecha en busca de características de imagen coincidentes. Un enfoque común para este problema es formar un parche de imagen más pequeño alrededor de cada píxel en la imagen izquierda. Estos parches de imagen se comparan con todas las disparidades posibles en la imagen derecha comparando sus parches de imagen correspondientes. Por ejemplo, para una disparidad de 1, el parche en la imagen izquierda se compararía con un parche de tamaño similar en la derecha, desplazado hacia la izquierda un píxel. La comparación entre estos dos parches se puede realizar obteniendo una medida computacional a partir de una de las siguientes ecuaciones que compara cada uno de los píxeles en los parches. Para todas las siguientes ecuaciones, L y R se refieren a las columnas izquierda y derecha, mientras que r y c se refieren a la fila y columna actuales de cualquiera de las imágenes que se están examinando. d se refiere a la disparidad de la imagen derecha.

Correlación normalizada: ${\frac {\suma {\suma {L(r,c)\cdot R(r,cd)}}}{\sqrt {(\suma {\suma {L(r,c)^{2}}})\cdot (\suma {\suma {R(r,cd)^{2}}})}}}$
Suma de diferencias al cuadrado: $\suma {\suma {(L(r,c)-R(r,cd))^{2}}}$
Suma de diferencias absolutas: $\sum {\sum {\left|L(r,c)-R(r,cd)\right\vert }}$

La disparidad con el valor calculado más bajo utilizando uno de los métodos anteriores se considera la disparidad de la característica de la imagen. Esta puntuación más baja indica que el algoritmo ha encontrado la mejor coincidencia de las características correspondientes en ambas imágenes.

El método descrito anteriormente es un algoritmo de búsqueda por fuerza bruta . Con parches y/o tamaños de imagen grandes, esta técnica puede consumir mucho tiempo, ya que los píxeles se vuelven a examinar constantemente para encontrar la puntuación de correlación más baja. Sin embargo, esta técnica también implica una repetición innecesaria, ya que muchos píxeles se superponen. Un algoritmo más eficiente implica recordar todos los valores del píxel anterior. Un algoritmo aún más eficiente implica recordar las sumas de las columnas de la fila anterior (además de recordar todos los valores del píxel anterior). Las técnicas que guardan la información anterior pueden aumentar en gran medida la eficiencia algorítmica de este proceso de análisis de imágenes.

Usos de la disparidad a partir de imágenes

El conocimiento de la disparidad se puede utilizar para extraer más información de las imágenes estereoscópicas. Un caso en el que la disparidad resulta muy útil es el cálculo de profundidad/distancia. La disparidad y la distancia a las cámaras están inversamente relacionadas. A medida que aumenta la distancia a las cámaras, la disparidad disminuye. Esto permite la percepción de profundidad en las imágenes estereoscópicas. Mediante el uso de geometría y álgebra, los puntos que aparecen en las imágenes estereoscópicas 2D se pueden representar como coordenadas en el espacio 3D.

Este concepto es particularmente útil para la navegación. Por ejemplo, el Mars Exploration Rover utiliza un método similar para escanear el terreno en busca de obstáculos. ^[4] El rover captura un par de imágenes con sus cámaras de navegación estereoscópica y se realizan cálculos de disparidad para detectar objetos elevados (como rocas). ^[5] Además, los datos de ubicación y velocidad se pueden extraer de imágenes estereoscópicas posteriores midiendo el desplazamiento de los objetos en relación con el rover. En algunos casos, esta es la mejor fuente de este tipo de información, ya que los sensores del codificador en las ruedas pueden ser inexactos debido al deslizamiento de los neumáticos.

Véase también

Referencias

^ Qian, N., Disparidad binocular y percepción de profundidad, Neuron, 18, 359–368, 1997.
^ Gonzalez, F. y Perez, R., Mecanismos neuronales subyacentes a la visión estereoscópica, Prog Neurobiol, 55(3), 191–224, 1998.
^ ab Linda G. Shapiro y George C. Stockman (2001). Visión artificial. Prentice Hall, 371–409. ISBN 0-13-030796-3 .
^ "El Laboratorio de Visión por Computador". JPL.NASA.GOV. JPL/NASA, sin fecha, Web. 5 de junio de 2011. <[1]>.
^ "Navegación espacial: Operaciones de superficie: Rover". JPL.NASA.GOV. JPL/NASA, sin fecha Web. 5 de junio de 2011. http://marsrovers.jpl.nasa.gov/mission/spacecraft_rover_eyes.html ^{[ enlace muerto permanente ‍]} .