Una cámara de tiempo de vuelo ( cámara ToF ), también conocida como sensor de tiempo de vuelo ( sensor ToF ), es un sistema de cámara de imágenes de rango para medir distancias entre la cámara y el sujeto para cada punto de la imagen en función del tiempo de vuelo , el tiempo de ida y vuelta de una señal de luz artificial, proporcionada por un láser o un LED . Las cámaras de tiempo de vuelo basadas en láser son parte de una clase más amplia de LIDAR sin escáner , en el que se captura toda la escena con cada pulso láser, a diferencia de punto por punto con un rayo láser como en los sistemas LIDAR de escaneo. [1] Los productos de cámara de tiempo de vuelo para aplicaciones civiles comenzaron a surgir alrededor de 2000, [2] ya que los procesos de semiconductores permitieron la producción de componentes lo suficientemente rápido para tales dispositivos. Los sistemas cubren rangos de unos pocos centímetros hasta varios kilómetros.
Se han desarrollado varias tecnologías diferentes para cámaras de tiempo de vuelo.
Los dispositivos mezcladores fotónicos (PMD), [3] el Swiss Ranger y CanestaVision [4] funcionan modulando el haz saliente con una portadora de RF y luego midiendo el cambio de fase de esa portadora en el lado del receptor. Este enfoque tiene un desafío de error modular: los rangos medidos son módulo de la longitud de onda de la portadora de RF. El Swiss Ranger es un dispositivo compacto de corto alcance, con alcances de 5 o 10 metros y una resolución de 176 x 144 píxeles. Con algoritmos de desenrollado de fase, se puede aumentar el rango de unicidad máxima. El PMD puede proporcionar alcances de hasta 60 m. La iluminación es LED pulsados en lugar de un láser. [5] Canesta , desarrollador de CanestaVision, fue comprado por Microsoft en 2010. Kinect2 para Xbox One se basó en la tecnología ToF de Canesta.
Estos dispositivos tienen un obturador incorporado en el sensor de imagen que se abre y se cierra al mismo ritmo que se envían los pulsos de luz. La mayoría de los sensores 3D de tiempo de vuelo se basan en este principio inventado por Medina. [6] Debido a que parte de cada pulso de retorno es bloqueado por el obturador de acuerdo con su tiempo de llegada, la cantidad de luz recibida se relaciona con la distancia que ha recorrido el pulso. La distancia se puede calcular utilizando la ecuación, z = R ( S 2 − S 1 ) / 2( S 1 + S 2 ) + R / 2 para una cámara ideal. R es el alcance de la cámara, determinado por el viaje de ida y vuelta del pulso de luz, S 1 la cantidad de pulso de luz que se recibe y S 2 la cantidad de pulso de luz que se bloquea. [6] [7]
La ZCam de 3DV Systems [1] es un sistema con control de rango. Microsoft compró 3DV en 2009. El sensor Kinect de segunda generación de Microsoft se desarrolló utilizando el conocimiento adquirido de Canesta y 3DV Systems. [8]
Principios similares se utilizan en la línea de cámaras ToF desarrollada por el Instituto Fraunhofer de Circuitos y Sistemas Microelectrónicos y TriDiCam. Estas cámaras emplean fotodetectores con un obturador electrónico rápido.
La resolución de profundidad de las cámaras ToF se puede mejorar con cámaras CCD intensificadas con compuerta ultrarrápida. Estas cámaras ofrecen tiempos de compuerta de hasta 200 ps y permiten la configuración de ToF con una resolución de profundidad submilimétrica. [9]
Los generadores de imágenes con compuerta de alcance también se pueden utilizar en imágenes 2D para suprimir todo aquello que se encuentre fuera de un rango de distancia especificado, como por ejemplo para ver a través de la niebla. Un láser pulsado proporciona iluminación y una compuerta óptica permite que la luz llegue al generador de imágenes solo durante el período de tiempo deseado. [10]
Estos dispositivos miden el tiempo de vuelo directo necesario para que un solo pulso láser salga de la cámara y se refleje de nuevo en el conjunto del plano focal. También conocido como "modo de disparo", las imágenes 3D capturadas con esta metodología capturan datos espaciales y temporales completos, registrando escenas 3D completas con un solo pulso láser. Esto permite una rápida adquisición y procesamiento rápido en tiempo real de la información de la escena. Para operaciones autónomas sensibles al tiempo, este enfoque se ha demostrado para pruebas espaciales autónomas [11] y operaciones como las utilizadas en la misión de muestreo y retorno del asteroide Bennu de OSIRIS-REx [12] y el aterrizaje de helicópteros autónomos. [13] [14]
Advanced Scientific Concepts, Inc. ofrece sistemas de visión TOF directos específicos para aplicaciones (por ejemplo, aéreas, automotrices, espaciales) [15], conocidos como cámaras LIDAR 3D Flash. Su enfoque utiliza fotodiodos de avalancha (APD) de InGaAs o matrices de fotodetectores PIN capaces de generar imágenes de pulsos láser en longitudes de onda de 980 nm a 1600 nm.
Una cámara de tiempo de vuelo consta de los siguientes componentes:
La versión más simple de una cámara de tiempo de vuelo utiliza pulsos de luz o un solo pulso de luz. La iluminación se enciende por un tiempo muy corto, el pulso de luz resultante ilumina la escena y se refleja en los objetos en el campo de visión. La lente de la cámara recoge la luz reflejada y la refleja en el sensor o en la matriz del plano focal. Dependiendo de la distancia, la luz entrante experimenta un retraso. Como la luz tiene una velocidad de aproximadamente c = 300.000.000 metros por segundo, este retraso es muy corto: un objeto a 2,5 m de distancia retrasará la luz en: [17]
En el caso de matrices moduladas en amplitud, el ancho de pulso de la iluminación determina el alcance máximo que puede manejar la cámara. Con un ancho de pulso de, por ejemplo, 50 ns, el alcance está limitado a
Estos tiempos tan cortos demuestran que la unidad de iluminación es una parte fundamental del sistema. Solo con LED o láseres especiales es posible generar pulsos tan cortos.
El píxel único consta de un elemento fotosensible (por ejemplo, un fotodiodo ). Convierte la luz entrante en una corriente. En los generadores de imágenes con temporizador analógico, conectados al fotodiodo hay interruptores rápidos que dirigen la corriente a uno de los dos (o varios) elementos de memoria (por ejemplo, un condensador ) que actúan como elementos de suma. En los generadores de imágenes con temporizador digital, un contador de tiempo, que puede funcionar a varios gigahercios, está conectado a cada píxel del fotodetector y deja de contar cuando se detecta luz.
En el diagrama de un temporizador analógico de matriz modulada en amplitud, el píxel utiliza dos interruptores (G1 y G2) y dos elementos de memoria (S1 y S2). Los interruptores están controlados por un pulso con la misma longitud que el pulso de luz, donde la señal de control del interruptor G2 se retrasa exactamente por el ancho del pulso. Dependiendo del retraso, solo una parte del pulso de luz se muestrea a través de G1 en S1, la otra parte se almacena en S2. Dependiendo de la distancia, la relación entre S1 y S2 cambia como se muestra en el dibujo. [4] Debido a que solo pequeñas cantidades de luz llegan al sensor dentro de 50 ns, no solo se envían uno sino varios miles de pulsos (tasa de repetición tR) y se recopilan, lo que aumenta la relación señal-ruido .
Después de la exposición, se realiza la lectura del píxel y las siguientes etapas miden las señales S1 y S2. Como la longitud del pulso de luz está definida, la distancia se puede calcular con la fórmula:
En el ejemplo, las señales tienen los siguientes valores: S1 = 0,66 y S2 = 0,33. Por lo tanto, la distancia es:
En presencia de luz de fondo, los elementos de memoria reciben una parte adicional de la señal, lo que perturbaría la medición de la distancia. Para eliminar la parte de fondo de la señal, se puede realizar toda la medición una segunda vez con la iluminación apagada. Si los objetos están más lejos que el rango de distancia, el resultado también es erróneo. En este caso, una segunda medición con las señales de control retardadas por un ancho de pulso adicional ayuda a suprimir dichos objetos. Otros sistemas funcionan con una fuente de luz modulada sinusoidalmente en lugar de la fuente de pulso.
En el caso de los captadores de imágenes TOF directos, como el LIDAR 3D Flash, el láser emite un único pulso corto de entre 5 y 10 ns. El evento T-zero (el momento en el que el pulso sale de la cámara) se establece capturando el pulso directamente y enviando este tiempo a la matriz del plano focal. El T-zero se utiliza para comparar el tiempo de retorno del pulso reflejado que regresa en los distintos píxeles de la matriz del plano focal. Al comparar el T-zero y el pulso devuelto capturado y comparar la diferencia de tiempo, cada píxel genera con precisión una medición directa del tiempo de vuelo. El recorrido de ida y vuelta de un único pulso para 100 metros es de 660 ns. Con un pulso de 10 ns, la escena se ilumina y el rango y la intensidad se capturan en menos de 1 microsegundo.
A diferencia de los sistemas de visión estereoscópica o de triangulación , el sistema completo es muy compacto: la iluminación se coloca justo al lado de la lente, mientras que los otros sistemas necesitan una cierta línea de base mínima. A diferencia de los sistemas de escaneo láser , no se necesitan piezas mecánicas móviles.
Se trata de un proceso directo para extraer la información de distancia de las señales de salida del sensor TOF. Como resultado, esta tarea utiliza solo una pequeña cantidad de potencia de procesamiento, nuevamente en contraste con la visión estereoscópica, donde se implementan algoritmos de correlación complejos. Una vez extraídos los datos de distancia, la detección de objetos, por ejemplo, también es un proceso sencillo de llevar a cabo porque los algoritmos no se ven alterados por los patrones en el objeto. La precisión generalmente se estima en el 1 % de la distancia medida. [18] [19]
Las cámaras de tiempo de vuelo pueden medir las distancias dentro de una escena completa con una sola toma. Como las cámaras alcanzan hasta 160 fotogramas por segundo, son ideales para su uso en aplicaciones en tiempo real.
En el caso de los detectores integrados CMOS u otros sensores que utilizan luz visible o infrarroja cercana (400 nm - 700 nm), aunque se suprime la mayor parte de la luz de fondo procedente de la iluminación artificial o del sol, el píxel tiene que proporcionar un alto rango dinámico . La luz de fondo también genera electrones, que deben almacenarse. Por ejemplo, las unidades de iluminación de muchas de las cámaras TOF actuales pueden proporcionar un nivel de iluminación de aproximadamente 1 vatio. El sol tiene una potencia de iluminación de aproximadamente 1050 vatios por metro cuadrado, y 50 vatios después del filtro de paso de banda óptico . Por lo tanto, si la escena iluminada tiene un tamaño de 1 metro cuadrado, la luz del sol es 50 veces más fuerte que la señal modulada. En el caso de los sensores TOF no integradores que no integran la luz a lo largo del tiempo y que utilizan detectores de infrarrojo cercano (InGaAs) para capturar el pulso láser corto, la observación directa del sol no es un problema porque la imagen no se integra a lo largo del tiempo, sino que se captura en un ciclo de adquisición corto, normalmente inferior a 1 microsegundo. Estos sensores TOF se utilizan en aplicaciones espaciales [12] y se están considerando para aplicaciones automotrices. [20]
En algunos tipos de dispositivos TOF (pero no en todos), si varias cámaras de tiempo de vuelo funcionan al mismo tiempo, las cámaras TOF pueden interferir en las mediciones de las demás. Existen varias posibilidades para solucionar este problema:
En el caso de las cámaras de tipo TOF directo que utilizan un único pulso láser para la iluminación, debido a que el pulso láser único es corto (por ejemplo, 10 nanosegundos), el TOF de ida y vuelta hacia y desde los objetos en el campo de visión es correspondientemente corto (por ejemplo, 100 metros = 660 ns TOF de ida y vuelta). Para un sensor de imágenes que captura a 30 Hz, la probabilidad de una interacción interferente es el tiempo que la compuerta de adquisición de la cámara está abierta dividido por el tiempo entre pulsos láser o aproximadamente 1 en 50 000 (0,66 μs dividido por 33 ms).
A diferencia de los sistemas de escaneo láser, en los que se ilumina un único punto, las cámaras de tiempo de vuelo iluminan una escena completa. En el caso de un dispositivo de diferencia de fase (matriz modulada en amplitud), debido a múltiples reflexiones, la luz puede alcanzar los objetos a lo largo de varios caminos. Por lo tanto, la distancia medida puede ser mayor que la distancia real. Los captadores de imágenes TOF directos son vulnerables si la luz se refleja en una superficie especular. Hay artículos publicados que describen las fortalezas y debilidades de los diversos dispositivos y enfoques TOF. [21]
Las cámaras de tiempo de vuelo se utilizan en funciones de asistencia y seguridad para aplicaciones automotrices avanzadas, como seguridad activa de peatones, detección previa a colisiones y aplicaciones en interiores como detección de posición fuera de posición (OOP). [22] [23]
Como las cámaras de tiempo de vuelo proporcionan imágenes de distancia en tiempo real, es fácil rastrear los movimientos de los humanos. Esto permite nuevas interacciones con dispositivos de consumo como televisores. Otro tema es el uso de este tipo de cámaras para interactuar con juegos en consolas de videojuegos. [24] El sensor Kinect de segunda generación originalmente incluido con la consola Xbox One usaba una cámara de tiempo de vuelo para su imagen de rango, [25] lo que permite interfaces de usuario naturales y aplicaciones de juegos que usan técnicas de visión artificial y reconocimiento de gestos . Creative e Intel también proporcionan un tipo similar de cámara de tiempo de vuelo de gestos interactiva para juegos, la Senz3D basada en la cámara DepthSense 325 de Softkinetic . [26] Infineon y PMD Technologies permiten pequeñas cámaras de profundidad 3D integradas para el control de gestos de corto alcance de dispositivos de consumo como PC y portátiles todo en uno (cámaras Picco flexx y Picco monstar). [27]
Varios teléfonos inteligentes incluyen cámaras de tiempo de vuelo. Estas se utilizan principalmente para mejorar la calidad de las fotos al proporcionar al software de la cámara información sobre el primer plano y el fondo. [28]
El primer teléfono móvil lanzado con dicha tecnología fue el LG G3 , de principios de 2014. [29] El BlackBerry Passport y el LG G Flex 2 también se lanzaron con un sensor ToF. [30]
Otras aplicaciones son las tareas de medición, por ejemplo, para la altura de llenado en silos. En la visión artificial industrial , la cámara de tiempo de vuelo ayuda a clasificar y localizar objetos para que los utilicen los robots, como los artículos que pasan por una cinta transportadora. Los controles de las puertas pueden distinguir fácilmente entre animales y humanos que llegan a la puerta.
Otro uso de estas cámaras es el campo de la robótica: los robots móviles pueden construir un mapa de su entorno muy rápidamente, lo que les permite evitar obstáculos o seguir a una persona que los guíe. Como el cálculo de la distancia es sencillo, se utiliza poca potencia de cálculo. Como estas cámaras también se pueden utilizar para medir distancias, se sabe que los equipos de la competición de robótica FIRST han utilizado los dispositivos para rutinas autónomas.
Las cámaras ToF se han utilizado para obtener modelos digitales de elevación de la topografía de la superficie de la Tierra , [31] para estudios en geomorfología .
La cámara [de tiempo de vuelo] pertenece a un grupo más amplio de sensores conocidos como LIDAR sin escáner (es decir, radar láser que no tiene escáner mecánico); un ejemplo temprano [1990] es [Marion W.] Scott y sus seguidores en Sandia.
-Cam, la primera cámara de vídeo de profundidad, se lanzó en 2000 y estaba destinada principalmente a las organizaciones de radiodifusión.
La estructura diferencial acumula cargas fotogeneradas en dos nodos de recolección utilizando dos puertas moduladas. Las señales de modulación de la puerta están sincronizadas con la fuente de luz y, por lo tanto, dependiendo de la fase de la luz entrante, un nodo recolecta más cargas que el otro. Al final de la integración, la diferencia de voltaje entre los dos nodos se lee como una medida de la fase de la luz reflejada.
Canesta Inc. utiliza la tecnología de sensor de imagen CMOS (CIS) de TowerJazz para fabricar sus innovadores sensores de imagen 3D CanestaVision.
Este libro describe una variedad de investigaciones recientes sobre imágenes de tiempo de vuelo: […] el principio de medición subyacente […] las fuentes asociadas de error y ambigüedad […] la calibración geométrica de las cámaras de tiempo de vuelo, particularmente cuando se utilizan en combinación con cámaras de color comunes […y] utilizan datos de tiempo de vuelo junto con técnicas tradicionales de coincidencia estéreo. Los cinco capítulos, en conjunto, describen un proceso completo de reconstrucción 3D de color y profundidad.