stringtranslate.com

Imágenes de rango

Imágenes de rango es el nombre de una colección de técnicas que se utilizan para producir una imagen 2D que muestra la distancia a puntos en una escena desde un punto específico, normalmente asociado con algún tipo de dispositivo sensor.

La imagen de rango resultante tiene valores de píxeles que corresponden a la distancia. Si el sensor que se utiliza para producir la imagen de alcance está calibrado correctamente, los valores de los píxeles se pueden dar directamente en unidades físicas, como metros.

Tipos de cámaras de alcance

El dispositivo sensor que se utiliza para producir la imagen de alcance a veces se denomina cámara de alcance o cámara de profundidad . Las cámaras de alcance pueden funcionar según varias técnicas diferentes, algunas de las cuales se presentan aquí.

Triangulación estéreo

La triangulación estéreo es una aplicación de estereofotogrametría donde los datos de profundidad de los píxeles se determinan a partir de datos adquiridos utilizando un sistema de configuración estéreo o de múltiples cámaras . De esta manera es posible determinar la profundidad de puntos de la escena, por ejemplo, desde el punto central de la línea entre sus puntos focales. Para resolver el problema de medición de profundidad utilizando un sistema de cámara estéreo es necesario encontrar primero los puntos correspondientes en las diferentes imágenes. Resolver el problema de correspondencia es uno de los principales problemas a la hora de utilizar este tipo de técnicas. Por ejemplo, es difícil resolver el problema de correspondencia para puntos de imagen que se encuentran dentro de regiones de intensidad o color homogéneos. Como consecuencia, las imágenes de alcance basadas en triangulación estéreo generalmente pueden producir estimaciones de profundidad confiables solo para un subconjunto de todos los puntos visibles en las múltiples cámaras.

La ventaja de esta técnica es que la medición es más o menos pasiva; no requiere condiciones especiales en cuanto a iluminación de la escena. Las otras técnicas mencionadas aquí no tienen por qué resolver el problema de correspondencia, sino que dependen de condiciones particulares de iluminación de la escena.

Hoja de triangulación de luz.

Si la escena se ilumina con una lámina de luz, se crea una línea reflejada vista desde la fuente de luz. Desde cualquier punto fuera del plano de la hoja, la línea normalmente aparecerá como una curva, cuya forma exacta depende tanto de la distancia entre el observador y la fuente de luz como de la distancia entre la fuente de luz y los puntos reflejados. Al observar la lámina de luz reflejada usando una cámara (a menudo una cámara de alta resolución) y conociendo las posiciones y orientaciones tanto de la cámara como de la fuente de luz, es posible determinar las distancias entre los puntos reflejados y la fuente de luz o cámara.

Moviendo la fuente de luz (y normalmente también la cámara) o la escena delante de la cámara, se puede generar una secuencia de perfiles de profundidad de la escena. Estos se pueden representar como una imagen de rango 2D.

Luz estructurada

Al iluminar la escena con un patrón de luz especialmente diseñado, la profundidad de la luz estructurada se puede determinar utilizando una sola imagen de la luz reflejada. La luz estructurada puede adoptar la forma de líneas horizontales y verticales, puntos o patrones de tablero de ajedrez. Una etapa de luz es básicamente un dispositivo genérico de generación de imágenes de rango de luz estructurado creado originalmente para el trabajo de captura de reflectancia.

Tiempo de vuelo

La profundidad también se puede medir utilizando la técnica estándar de tiempo de vuelo (ToF), más o menos como un radar , en el sentido de que se produce una imagen de alcance similar a una imagen de radar, excepto que se utiliza un pulso de luz en lugar de un RF. legumbres. Tampoco es diferente a un LIDAR , excepto que ToF no tiene escáner, es decir, toda la escena se captura con un solo pulso de luz, en lugar de punto por punto con un rayo láser giratorio. Las cámaras de tiempo de vuelo son dispositivos relativamente nuevos que capturan una escena completa en tres dimensiones con un sensor de imagen dedicado y, por lo tanto, no necesitan partes móviles. Un radar láser de tiempo de vuelo con una cámara CCD intensificada de activación rápida logra una resolución de profundidad submilimétrica. Con esta técnica, un breve pulso láser ilumina una escena y la cámara CCD intensificada abre su obturador de alta velocidad sólo durante unos cientos de picosegundos . La información 3D se calcula a partir de una serie de imágenes 2D que se recopilaron con un retraso cada vez mayor entre el pulso láser y la apertura del obturador. [1]

Interferometría

Iluminando puntos con luz coherente y midiendo el cambio de fase de la luz reflejada con respecto a la fuente de luz es posible determinar la profundidad. Suponiendo que la imagen de rango real es una función más o menos continua de las coordenadas de la imagen, se puede obtener la profundidad correcta utilizando una técnica llamada desenvolvimiento de fase. Véase interferometría SAR terrestre .

Apertura codificada

La información de profundidad se puede inferir parcial o totalmente junto con la intensidad mediante la convolución inversa de una imagen capturada con un patrón de apertura codificado especialmente diseñado con una disposición compleja específica de agujeros a través de los cuales se permite el paso o se bloquea la luz entrante. La forma compleja de la apertura crea un desenfoque no uniforme de la imagen en aquellas partes de la escena que no se encuentran en el plano focal de la lente. El grado de desenfoque en la escena, que está relacionado con el desplazamiento del plano focal, se puede utilizar para inferir la profundidad. [2]

Para identificar el tamaño del desenfoque (necesario para decodificar la información de profundidad) en la imagen capturada, se pueden utilizar dos enfoques: 1) desenfocar la imagen capturada con diferentes desenfoques, o 2) aprender algunos filtros lineales que identifican el tipo de desenfoque .

El primer enfoque utiliza una deconvolución matemática correcta que tiene en cuenta el patrón de diseño de apertura conocido; Esta deconvolución puede identificar dónde y en qué grado la escena se ha vuelto complicada debido a la luz desenfocada que cae selectivamente sobre la superficie de captura, e invertir el proceso. [3] De este modo, la escena sin desenfoque se puede recuperar junto con el tamaño del desenfoque.

El segundo enfoque, en cambio, extrae la extensión del desenfoque sin pasar por la recuperación de la imagen libre de desenfoque y, por lo tanto, sin realizar convolución inversa. Utilizando una técnica basada en el análisis de componentes principales (PCA), el método aprende fuera de línea un banco de filtros que identifican de forma única cada tamaño de desenfoque; Luego, estos filtros se aplican directamente a la imagen capturada, como una convolución normal. [4] La ventaja más importante de este enfoque es que no se requiere información sobre el patrón de apertura codificado. Debido a su eficiencia, este algoritmo también se ha extendido a secuencias de vídeo con objetos en movimiento y deformables. [5]

Dado que la profundidad de un punto se infiere de su grado de desenfoque causado por la luz que se propaga desde el punto correspondiente en la escena, llega a través de toda la superficie de la apertura y se distorsiona de acuerdo con esta dispersión, esta es una forma compleja de triangulación estéreo. Cada punto de la imagen se muestrea espacialmente de manera efectiva a lo largo del ancho de la apertura.

Esta tecnología se ha utilizado últimamente en el iPhone X. Muchos otros teléfonos de Samsung y ordenadores de Microsoft han intentado utilizar esta tecnología pero no utilizan el mapeo 3D.

Ver también

Referencias

  1. ^ Radar láser 3D de alta precisión Jens Busck y Henning Heiselberg, Universidad Danmarks Tekniske, 2004
  2. ^ Martinello, Manuel (2012). Imágenes de apertura codificada (PDF) . Universidad Heriot-Watt.
  3. ^ Imagen y profundidad de una cámara convencional con apertura codificada Anat Levin, Rob Fergus, Fredo Durand, William T. Freeman, MIT
  4. ^ Martinello, Manuel; Favaro, Paolo (2011). "Deconvolución ciega de una sola imagen con estadísticas de textura de orden superior" (PDF) . Procesamiento de Vídeo y Vídeo Computacional . Apuntes de conferencias sobre informática. vol. 7082. Springer-Verlag. págs. 124-151. doi :10.1007/978-3-642-24870-2_6. ISBN 978-3-642-24869-6.
  5. ^ Martinello, Manuel; Favaro, Paolo (2012). "Estimación de profundidad a partir de una secuencia de vídeo con objetos en movimiento y deformables". Conferencia IET sobre procesamiento de imágenes (IPR 2012) (PDF) . pag. 131. doi :10.1049/cp.2012.0425. ISBN 978-1-84919-632-1.