Imágenes de alcance

Imágenes de rango es el nombre de un conjunto de técnicas que se utilizan para producir una imagen 2D que muestra la distancia a los puntos de una escena desde un punto específico, normalmente asociado con algún tipo de dispositivo sensor.

La imagen de rango resultante tiene valores de píxeles que corresponden a la distancia. Si el sensor que se utiliza para generar la imagen de rango está calibrado correctamente, los valores de píxeles se pueden expresar directamente en unidades físicas, como metros.

Tipos de cámaras de alcance

El dispositivo sensor que se utiliza para generar la imagen de alcance se denomina a veces cámara de alcance o cámara de profundidad . Las cámaras de alcance pueden funcionar según diversas técnicas diferentes, algunas de las cuales se presentan aquí.

Triangulación estéreo

La triangulación estéreo es una aplicación de la estereofotogrametría en la que los datos de profundidad de los píxeles se determinan a partir de los datos adquiridos mediante un sistema de configuración estéreo o de múltiples cámaras . De esta manera, es posible determinar la profundidad de los puntos de la escena, por ejemplo, desde el punto central de la línea entre sus puntos focales. Para resolver el problema de medición de profundidad mediante un sistema de cámara estéreo, es necesario encontrar primero los puntos correspondientes en las diferentes imágenes. Resolver el problema de correspondencia es uno de los principales problemas al utilizar este tipo de técnica. Por ejemplo, es difícil resolver el problema de correspondencia para los puntos de la imagen que se encuentran dentro de regiones de intensidad o color homogéneos. Como consecuencia, la obtención de imágenes de rangos basada en la triangulación estéreo generalmente puede producir estimaciones de profundidad confiables solo para un subconjunto de todos los puntos visibles en las múltiples cámaras.

La ventaja de esta técnica es que la medición es más o menos pasiva, no requiere condiciones especiales en cuanto a la iluminación de la escena. Las otras técnicas mencionadas aquí no tienen que resolver el problema de correspondencia, sino que dependen de las condiciones particulares de iluminación de la escena.

Lámina de triangulación de luz

Si la escena está iluminada con una lámina de luz, se crea una línea reflejada, tal como se ve desde la fuente de luz. Desde cualquier punto fuera del plano de la lámina, la línea aparecerá típicamente como una curva, cuya forma exacta depende tanto de la distancia entre el observador y la fuente de luz, como de la distancia entre la fuente de luz y los puntos reflejados. Al observar la lámina de luz reflejada con una cámara (a menudo una cámara de alta resolución) y conocer las posiciones y orientaciones tanto de la cámara como de la fuente de luz, es posible determinar las distancias entre los puntos reflejados y la fuente de luz o la cámara.

Al mover la fuente de luz (y normalmente también la cámara) o la escena frente a la cámara, se puede generar una secuencia de perfiles de profundidad de la escena, que se pueden representar como una imagen de rango 2D.

Luz estructurada

Al iluminar la escena con un patrón de luz especialmente diseñado, la luz estructurada , se puede determinar la profundidad utilizando solo una imagen de la luz reflejada. La luz estructurada puede tener la forma de líneas horizontales y verticales, puntos o patrones de tablero de ajedrez. Una platina de luz es básicamente un dispositivo genérico de obtención de imágenes de rango de luz estructurada creado originalmente para el trabajo de captura de reflectancia.

Tiempo de vuelo

La profundidad también se puede medir utilizando la técnica estándar de tiempo de vuelo (ToF), más o menos como un radar , en el que se produce una imagen de rango similar a una imagen de radar, excepto que se utiliza un pulso de luz en lugar de un pulso de RF. Tampoco es diferente de un LIDAR , excepto que ToF no tiene escáner, es decir, se captura toda la escena con un solo pulso de luz, a diferencia de punto por punto con un rayo láser giratorio. Las cámaras de tiempo de vuelo son dispositivos relativamente nuevos que capturan una escena completa en tres dimensiones con un sensor de imagen dedicado y, por lo tanto, no necesitan partes móviles. Un radar láser de tiempo de vuelo con una cámara CCD intensificada de compuerta rápida logra una resolución de profundidad submilimétrica. Con esta técnica, un pulso láser corto ilumina una escena y la cámara CCD intensificada abre su obturador de alta velocidad solo durante unos pocos cientos de picosegundos . La información 3D se calcula a partir de una serie de imágenes 2D que se recopilaron con un retraso creciente entre el pulso láser y la apertura del obturador. ^[1]

Interferometría

Al iluminar puntos con luz coherente y medir el cambio de fase de la luz reflejada en relación con la fuente de luz, es posible determinar la profundidad. Suponiendo que la imagen de rango real es una función más o menos continua de las coordenadas de la imagen, se puede obtener la profundidad correcta utilizando una técnica llamada desdoblamiento de fase. Véase interferometría SAR terrestre .

Apertura codificada

La información de profundidad se puede inferir parcial o totalmente junto con la intensidad a través de la convolución inversa de una imagen capturada con un patrón de apertura codificado especialmente diseñado con una disposición compleja específica de orificios a través de los cuales se permite o bloquea la luz entrante. La forma compleja de la apertura crea un desenfoque no uniforme de la imagen para aquellas partes de la escena que no están en el plano focal de la lente. La extensión del desenfoque en la escena, que está relacionada con el desplazamiento desde el plano focal, se puede utilizar para inferir la profundidad. ^[2]

Para identificar el tamaño del desenfoque (necesario para decodificar la información de profundidad) en la imagen capturada, se pueden utilizar dos enfoques: 1) desenfocar la imagen capturada con diferentes desenfoques, o 2) aprender algunos filtros lineales que identifiquen el tipo de desenfoque.

El primer enfoque utiliza una deconvolución matemática correcta que tiene en cuenta el patrón de diseño de apertura conocido; esta deconvolución puede identificar dónde y en qué grado la escena se ha vuelto convolucionada por la luz desenfocada que cae selectivamente sobre la superficie de captura, e invertir el proceso. ^[3] De este modo, la escena sin borrosidad se puede recuperar junto con el tamaño de la borrosidad.

El segundo enfoque, en cambio, extrae la extensión del desenfoque sin pasar por la recuperación de la imagen sin desenfoque y, por lo tanto, sin realizar una convolución inversa. Mediante una técnica basada en el análisis de componentes principales (PCA), el método aprende fuera de línea un banco de filtros que identifican de forma única cada tamaño de desenfoque; estos filtros se aplican luego directamente a la imagen capturada, como una convolución normal. ^[4] La ventaja más importante de este enfoque es que no se requiere información sobre el patrón de apertura codificado. Debido a su eficiencia, este algoritmo también se ha extendido a secuencias de vídeo con objetos móviles y deformables. ^[5]

Dado que la profundidad de un punto se infiere a partir de la extensión de su desenfoque causado por la luz que se propaga desde el punto correspondiente en la escena y llega a través de toda la superficie de la abertura y se distorsiona de acuerdo con esta propagación, se trata de una forma compleja de triangulación estéreo. Cada punto en la imagen se muestrea espacialmente de manera efectiva a lo largo del ancho de la abertura.

Esta tecnología se ha utilizado últimamente en el iPhone X. Muchos otros teléfonos de Samsung y ordenadores de Microsoft han intentado utilizar esta tecnología, pero no utilizan el mapeo 3D.

Véase también

Escáner 3D
Mapa de profundidad
Cámara CCD intensificada
Kinect
Generador de imágenes de rango dinámico láser
Telémetro láser
Lidar
Cámara de campo de luz (cámara plenóptica)
La técnica de flujo óptico desarrollada para la franquicia Matrix proporciona una solución efectiva al problema de correspondencia para permitir la cinematografía virtual .
Fotogrametría
Estructura a partir del movimiento
Cámara de tiempo de vuelo

Referencias

^ Radar láser 3D de alta precisión Jens Busck y Henning Heiselberg, Universidad Danmarks Tekniske, 2004
^ Martinello, Manuel (2012). Imágenes de apertura codificada (PDF) . Universidad Heriot-Watt.
^ Imagen y profundidad de una cámara convencional con apertura codificada Anat Levin, Rob Fergus, Fredo Durand, William T. Freeman, MIT
^ Martinello, Manuel; Favaro, Paolo (2011). "Deconvolución ciega de una sola imagen con estadísticas de textura de orden superior" (PDF) . Procesamiento de video y video computacional . Apuntes de clase en informática. Vol. 7082. Springer-Verlag. págs. 124–151. doi :10.1007/978-3-642-24870-2_6. ISBN . 978-3-642-24869-6.
^ Martinello, Manuel; Favaro, Paolo (2012). "Estimación de profundidad a partir de una secuencia de vídeo con objetos móviles y deformables". Conferencia IET sobre procesamiento de imágenes (IPR 2012) (PDF) . pág. 131. doi :10.1049/cp.2012.0425. ISBN . 978-1-84919-632-1.

Bernd Jähne (1997). Manual práctico de procesamiento de imágenes para aplicaciones científicas . CRC Press. ISBN 0-8493-8906-2.
Linda G. Shapiro y George C. Stockman (2001). Visión artificial . Prentice Hall. ISBN 0-13-030796-3.
David A. Forsyth y Jean Ponce (2003). Visión artificial: un enfoque moderno . Prentice Hall. ISBN 0-12-379777-2.