Una cámara de tiempo de vuelo ( cámara ToF ), también conocida como sensor de tiempo de vuelo ( sensor ToF ), es un sistema de cámara de imágenes de rango para medir distancias entre la cámara y el sujeto para cada punto de la imagen en función del tiempo . -de vuelo , el tiempo de ida y vuelta de una señal de luz artificial, proporcionada por un láser o un LED . Las cámaras de tiempo de vuelo basadas en láser son parte de una clase más amplia de LIDAR sin escáner , en las que se captura la escena completa con cada pulso láser, a diferencia de punto por punto con un rayo láser, como en los sistemas LIDAR de escaneo. [1] Los productos de cámaras de tiempo de vuelo para aplicaciones civiles comenzaron a surgir alrededor del año 2000, [2] cuando los procesos de semiconductores permitieron la producción de componentes lo suficientemente rápido para tales dispositivos. Los sistemas cubren distancias que van desde unos pocos centímetros hasta varios kilómetros.
Se han desarrollado varias tecnologías diferentes para cámaras de tiempo de vuelo.
Los dispositivos mezcladores fotónicos (PMD), [3] el Swiss Ranger y CanestaVision [4] funcionan modulando el haz saliente con una portadora de RF y luego midiendo el cambio de fase de esa portadora en el lado del receptor. Este enfoque tiene un desafío de error modular: los rangos medidos son módulo de la longitud de onda portadora de RF. El Swiss Ranger es un dispositivo compacto, de corto alcance, con alcances de 5 o 10 metros y una resolución de 176 x 144 píxeles. Con algoritmos de desenvolvimiento de fase, se puede aumentar el rango máximo de unicidad. El PMD puede proporcionar alcances de hasta 60 m. La iluminación se realiza mediante LED pulsados en lugar de un láser. [5] Microsoft compró Canesta , desarrollador de CanestaVision , en 2010. El Kinect2 para Xbox One se basó en la tecnología ToF de Canesta.
Estos dispositivos tienen un obturador incorporado en el sensor de imagen que se abre y se cierra al mismo ritmo que se envían los pulsos de luz. La mayoría de los sensores 3D de tiempo de vuelo se basan en este principio inventado por Medina. [6] Debido a que parte de cada pulso que regresa es bloqueado por el obturador de acuerdo con su tiempo de llegada, la cantidad de luz recibida se relaciona con la distancia que ha recorrido el pulso. La distancia se puede calcular usando la ecuación z = R ( S 2 − S 1 ) / 2 ( S 1 + S 2 ) + R / 2 para una cámara ideal. R es el alcance de la cámara, determinado por el recorrido de ida y vuelta del pulso de luz, S 1 la cantidad de pulso de luz que se recibe y S 2 la cantidad de pulso de luz que se bloquea. [6] [7]
La ZCam de 3DV Systems [1] es un sistema de rango controlado. Microsoft compró 3DV en 2009. El sensor Kinect de segunda generación de Microsoft se desarrolló utilizando el conocimiento adquirido de Canesta y 3DV Systems. [8]
Se utilizan principios similares en la línea de cámaras ToF desarrollada por el Instituto Fraunhofer de Circuitos y Sistemas Microelectrónicos y TriDiCam. Estas cámaras emplean fotodetectores con un obturador electrónico rápido.
La resolución de profundidad de las cámaras ToF se puede mejorar con cámaras CCD intensificadas de activación ultrarrápida. Estas cámaras proporcionan tiempos de activación de hasta 200 ps y permiten la configuración ToF con resolución de profundidad submilimétrica. [9]
Los generadores de imágenes con rango controlado también se pueden utilizar en imágenes 2D para suprimir cualquier cosa fuera de un rango de distancia específico, como ver a través de la niebla. Un láser pulsado proporciona iluminación y una puerta óptica permite que la luz llegue al generador de imágenes sólo durante el período de tiempo deseado. [10]
Estos dispositivos miden el tiempo de vuelo directo necesario para que un único pulso láser salga de la cámara y se refleje en el conjunto del plano focal. También conocido como "modo de disparo", las imágenes 3D capturadas con esta metodología completan datos espaciales y temporales, grabando escenas 3D completas con un solo pulso láser. Esto permite una adquisición rápida y un procesamiento rápido en tiempo real de la información de la escena. Para operaciones autónomas urgentes, este enfoque se ha demostrado para pruebas espaciales autónomas [11] y operaciones como las utilizadas en la misión de muestreo y retorno del asteroide OSIRIS-REx Bennu [12] y el aterrizaje autónomo de helicópteros. [13] [14]
Advanced Scientific Concepts, Inc. proporciona sistemas de visión TOF directa para aplicaciones específicas (por ejemplo, aéreas, automotrices, espaciales) [15] conocidos como cámaras LIDAR con flash 3D. Su enfoque utiliza fotodiodos de avalancha (APD) de InGaAs o conjuntos de fotodetectores PIN capaces de generar imágenes de pulsos láser en longitudes de onda de 980 nm a 1600 nm.
Una cámara de tiempo de vuelo consta de los siguientes componentes:
La versión más simple de una cámara de tiempo de vuelo utiliza pulsos de luz o un solo pulso de luz. La iluminación se enciende durante un breve periodo de tiempo, el impulso luminoso resultante ilumina la escena y se refleja en los objetos en el campo visual. La lente de la cámara recoge la luz reflejada y la refleja en el sensor o en la matriz del plano focal. Dependiendo de la distancia, la luz entrante sufre un retraso. Como la luz tiene una velocidad de aproximadamente c = 300.000.000 metros por segundo, este retraso es muy corto: un objeto a 2,5 m de distancia retrasará la luz en: [17]
Para matrices con modulación de amplitud, el ancho del pulso de la iluminación determina el rango máximo que la cámara puede manejar. Con una duración de impulso de, por ejemplo, 50 ns, el rango está limitado a
Estos cortos tiempos muestran que la unidad de iluminación es una parte crítica del sistema. Sólo con LED o láseres especiales es posible generar impulsos tan cortos.
El píxel individual consta de un elemento fotosensible (por ejemplo, un fotodiodo ). Convierte la luz entrante en corriente. En los generadores de imágenes de sincronización analógica, conectados al fotodiodo hay interruptores rápidos, que dirigen la corriente a uno de dos (o varios) elementos de memoria (por ejemplo, un condensador ) que actúan como elementos de suma. En los generadores de imágenes digitales, un contador de tiempo, que puede funcionar a varios gigahercios, está conectado a cada píxel del fotodetector y deja de contar cuando se detecta luz.
En el diagrama de un temporizador analógico de matriz modulada en amplitud, el píxel utiliza dos interruptores (G1 y G2) y dos elementos de memoria (S1 y S2). Los interruptores se controlan mediante un impulso de la misma longitud que el impulso de luz, donde la señal de control del interruptor G2 se retrasa exactamente la duración del impulso. Dependiendo del retardo, a través de G1 en S1 sólo se registra una parte del impulso luminoso y la otra parte se almacena en S2. Dependiendo de la distancia, la relación entre S1 y S2 cambia como se muestra en el dibujo. [4] Debido a que solo pequeñas cantidades de luz llegan al sensor en 50 ns, no solo se envían uno sino varios miles de pulsos (tasa de repetición tR) y se recopilan, aumentando así la relación señal-ruido .
Después de la exposición, se lee el píxel y las siguientes etapas miden las señales S1 y S2. Como se define la longitud del pulso de luz, la distancia se puede calcular con la fórmula:
En el ejemplo, las señales tienen los siguientes valores: S1 = 0,66 y S2 = 0,33. La distancia por tanto es:
En presencia de luz de fondo , los elementos de memoria reciben una parte adicional de la señal. Esto perturbaría la medición de la distancia. Para eliminar la parte de fondo de la señal, toda la medición se puede realizar una segunda vez con la iluminación apagada. Si los objetos están más lejos que el rango de distancia, el resultado también será incorrecto. En este caso, una segunda medición con las señales de control retrasadas con un ancho de impulso adicional ayuda a suprimir tales objetos. Otros sistemas funcionan con una fuente de luz modulada de forma sinusoidal en lugar de una fuente de impulsos.
Para los generadores de imágenes TOF directos, como el 3D Flash LIDAR, el láser emite un único pulso corto de 5 a 10 ns. El evento T-cero (el momento en que el pulso sale de la cámara) se establece capturando el pulso directamente y dirigiendo este tiempo a la matriz del plano focal. T-cero se utiliza para comparar el tiempo de retorno del pulso reflejado que regresa en los distintos píxeles de la matriz del plano focal. Al comparar T-cero y el pulso de retorno capturado y comparar la diferencia de tiempo, cada píxel genera con precisión una medición directa del tiempo de vuelo. El recorrido de ida y vuelta de un solo pulso de 100 metros es de 660 ns. Con un pulso de 10 ns, la escena se ilumina y se captura el alcance y la intensidad en menos de 1 microsegundo.
A diferencia de los sistemas de visión estereoscópica o de triangulación , todo el sistema es muy compacto: la iluminación se sitúa justo al lado de la lente, mientras que los demás sistemas necesitan una determinada línea base mínima. A diferencia de los sistemas de escaneo láser , no se necesitan piezas mecánicas móviles.
Es un proceso directo para extraer la información de distancia de las señales de salida del sensor TOF. Como resultado, esta tarea utiliza sólo una pequeña cantidad de potencia de procesamiento, a diferencia de la visión estéreo, donde se implementan complejos algoritmos de correlación. Una vez extraídos los datos de distancia, la detección de objetos, por ejemplo, también es un proceso sencillo de realizar porque los algoritmos no se ven perturbados por los patrones del objeto. La precisión suele estimarse en un 1 % de la distancia medida. [18] [19]
Las cámaras de tiempo de vuelo son capaces de medir las distancias dentro de una escena completa con un solo disparo. Como las cámaras alcanzan hasta 160 fotogramas por segundo, son ideales para su uso en aplicaciones en tiempo real.
Cuando se utiliza CMOS u otros detectores o sensores integrados que utilizan luz visible o infrarroja cercana (400 nm - 700 nm), aunque se suprime la mayor parte de la luz de fondo procedente de la iluminación artificial o del sol, el píxel todavía tiene que proporcionar una alta gama dinámica . La luz de fondo también genera electrones que deben almacenarse. Por ejemplo, las unidades de iluminación de muchas de las cámaras TOF actuales pueden proporcionar un nivel de iluminación de aproximadamente 1 vatio. El Sol tiene una potencia de iluminación de unos 1050 vatios por metro cuadrado, y 50 vatios después del filtro óptico de paso de banda . Por tanto, si la escena iluminada tiene un tamaño de 1 metro cuadrado, la luz del sol es 50 veces más fuerte que la señal modulada. Para los sensores TOF no integrados que no integran la luz a lo largo del tiempo y utilizan detectores de infrarrojo cercano (InGaAs) para capturar el pulso láser corto, la visualización directa del sol no es un problema porque la imagen no se integra a lo largo del tiempo, sino que capturado dentro de un ciclo de adquisición corto, generalmente de menos de 1 microsegundo. Estos sensores TOF se utilizan en aplicaciones espaciales [12] y en consideración para aplicaciones automotrices. [20]
En ciertos tipos de dispositivos TOF (pero no en todos), si varias cámaras de tiempo de vuelo están funcionando al mismo tiempo, las cámaras TOF pueden perturbar las mediciones de las demás. Existen varias posibilidades para abordar este problema:
Para las cámaras tipo TOF directo que utilizan un único pulso láser para iluminación, debido a que el único pulso láser es corto (por ejemplo, 10 nanosegundos), el TOF de ida y vuelta hacia y desde los objetos en el campo de visión es correspondientemente corto (por ejemplo, 100 metros = 660 ns TOF ida y vuelta). Para un generador de imágenes que captura a 30 Hz, la probabilidad de una interacción de interferencia es el tiempo que la puerta de adquisición de la cámara está abierta dividido por el tiempo entre pulsos láser o aproximadamente 1 en 50.000 (0,66 μs dividido por 33 ms).
A diferencia de los sistemas de escaneo láser, en los que se ilumina un solo punto, las cámaras de tiempo de vuelo iluminan una escena completa. Para un dispositivo de diferencia de fase (matriz de amplitud modulada), debido a múltiples reflexiones, la luz puede llegar a los objetos a lo largo de varios caminos. Por lo tanto, la distancia medida puede ser mayor que la distancia real. Los generadores de imágenes TOF directos son vulnerables si la luz se refleja en una superficie especular. Hay artículos publicados disponibles que describen las fortalezas y debilidades de los diversos dispositivos y enfoques TOF. [21]
Las cámaras de tiempo de vuelo se utilizan en funciones de asistencia y seguridad para aplicaciones automotrices avanzadas, como seguridad activa de peatones, detección previa a un choque y aplicaciones en interiores como detección de fuera de posición (OOP). [22] [23]
Como las cámaras de tiempo de vuelo proporcionan imágenes a distancia en tiempo real, es fácil seguir los movimientos de los humanos. Esto permite nuevas interacciones con dispositivos de consumo como los televisores. Otro tema es el de utilizar este tipo de cámaras para interactuar con juegos en las consolas de videojuegos. [24] El sensor Kinect de segunda generación incluido originalmente con la consola Xbox One usaba una cámara de tiempo de vuelo para obtener imágenes de alcance, [25] permitiendo interfaces de usuario naturales y aplicaciones de juegos utilizando visión por computadora y técnicas de reconocimiento de gestos . Creative e Intel también ofrecen un tipo similar de cámara de tiempo de vuelo con gestos interactivos para juegos, la Senz3D basada en la cámara DepthSense 325 de Softkinetic . [26] Infineon y PMD Technologies habilitan pequeñas cámaras de profundidad 3D integradas para el control de gestos de corto alcance de dispositivos de consumo como PC y portátiles todo en uno (cámaras Picco flexx y Picco monstar). [27]
Varios teléfonos inteligentes incluyen cámaras de tiempo de vuelo. Se utilizan principalmente para mejorar la calidad de las fotografías proporcionando al software de la cámara información sobre el primer plano y el fondo. [28]
El primer teléfono móvil lanzado con dicha tecnología fue el LG G3 , de principios de 2014. [29] El BlackBerry Passport y el LG G Flex 2 también se lanzaron con un sensor ToF. [30]
Otras aplicaciones son las tareas de medición, p. ej. de la altura de llenado en silos. En la visión artificial industrial , la cámara de tiempo de vuelo ayuda a clasificar y localizar objetos para que los utilicen los robots, como los elementos que pasan por un transportador. Los controles de las puertas pueden distinguir fácilmente entre animales y personas que llegan a la puerta.
Otro uso de estas cámaras es el campo de la robótica: los robots móviles pueden crear muy rápidamente un mapa de su entorno, lo que les permite evitar obstáculos o seguir a una persona líder. Como el cálculo de la distancia es sencillo, se utiliza poca potencia computacional. Dado que estas cámaras también se pueden utilizar para medir distancias, se sabe que los equipos de FIRST Robotics Competition utilizan los dispositivos para rutinas autónomas.
Las cámaras ToF se han utilizado para obtener modelos digitales de elevación de la topografía de la superficie terrestre , [31] para estudios de geomorfología .
La cámara [de tiempo de vuelo] pertenece a un grupo más amplio de sensores conocidos como LIDAR sin escáner (es decir, radar láser que no tiene escáner mecánico); un ejemplo temprano [1990] es el de [Marion W.] Scott y sus seguidores en Sandia.
Z-Cam, la primera cámara de vídeo de profundidad, se lanzó al mercado en 2000 y estaba dirigida principalmente a organizaciones de radiodifusión.
La estructura diferencial acumula cargas fotogeneradas en dos nodos de recolección utilizando dos puertas moduladas.
Las señales de modulación de la puerta están sincronizadas con la fuente de luz y, por lo tanto, dependiendo de la fase de la luz entrante, un nodo recoge más cargas que el otro.
Al final de la integración se lee la diferencia de tensión entre los dos nodos como medida de la fase de la luz reflejada.
Canesta Inc. está utilizando la tecnología de sensor de imagen CMOS (CIS) de TowerJazz para fabricar sus innovadores sensores de imagen 3-D CanestaVision.
Este libro describe una variedad de investigaciones recientes sobre imágenes de tiempo de vuelo: […] el principio de medición subyacente […] las fuentes asociadas de error y ambigüedad […] la calibración geométrica de las cámaras de tiempo de vuelo, particularmente cuando se utiliza en combinación con cámaras en color ordinarias [...y] utiliza datos de tiempo de vuelo junto con técnicas tradicionales de comparación estéreo. Los cinco capítulos, en conjunto, describen un proceso completo de reconstrucción 3D en profundidad y color.