stringtranslate.com

Cámara de eventos

Una cámara de eventos Prophesee.
Una cámara de eventos Prophesee.

Una cámara de eventos , también conocida como cámara neuromórfica , [1] retina de silicio [2] o sensor de visión dinámica , [3] es un sensor de imágenes que responde a los cambios locales en el brillo. Las cámaras de eventos no capturan imágenes utilizando un obturador como lo hacen las cámaras convencionales (de fotogramas) . En cambio, cada píxel dentro de una cámara de eventos opera de manera independiente y asincrónica, informando los cambios en el brillo a medida que ocurren y permaneciendo en silencio en el resto del tiempo.

Descripción funcional

Los píxeles de las cámaras de eventos responden de forma independiente a los cambios de brillo a medida que se producen. [4] Cada píxel almacena un nivel de brillo de referencia y lo compara continuamente con el nivel de brillo actual. Si la diferencia de brillo supera un umbral, ese píxel restablece su nivel de referencia y genera un evento: un paquete discreto que contiene la dirección del píxel y la marca de tiempo. Los eventos también pueden contener la polaridad (aumento o disminución) de un cambio de brillo o una medición instantánea del nivel de iluminación, [5] según el modelo de sensor específico. Por lo tanto, las cámaras de eventos generan una secuencia asincrónica de eventos activados por cambios en la iluminación de la escena.

Comparación de los datos producidos por una cámara de eventos y una cámara convencional.

Las cámaras de eventos suelen informar marcas de tiempo con una resolución temporal de microsegundos, un rango dinámico de 120 dB y menos subexposición/sobreexposición y desenfoque de movimiento [4] [6] que las cámaras de fotogramas. Esto les permite rastrear el movimiento de objetos y de la cámara ( flujo óptico ) con mayor precisión. Proporcionan información en escala de grises. Inicialmente (2014), la resolución estaba limitada a 100 píxeles. Una entrada posterior alcanzó una resolución de 640x480 en 2019. Debido a que los píxeles individuales se activan de forma independiente, las cámaras de eventos parecen adecuadas para la integración con arquitecturas informáticas asincrónicas como la computación neuromórfica . La independencia de píxeles permite a estas cámaras hacer frente a escenas con regiones muy y muy iluminadas sin tener que promediarlas. [7] Es importante señalar que, si bien la cámara informa eventos con una resolución de microsegundos, la resolución temporal real (o, alternativamente, el ancho de banda para la detección) es del orden de decenas de microsegundos a unos pocos milisegundos, según el contraste de la señal, las condiciones de iluminación y el diseño del sensor. [8]

* Indica la resolución temporal de la percepción humana, incluido el tiempo de procesamiento cognitivo. **Se refiere a las tasas de reconocimiento de cambios y varía según la señal y el modelo del sensor.

Tipos

Los sensores de contraste temporal (como DVS [4] (sensor de visión dinámica) o sDVS [13] (sensible-DVS)) producen eventos que indican polaridad (aumento o disminución del brillo), mientras que los sensores de imagen temporal [5] indican la intensidad instantánea con cada evento. El DAVIS [14] (sensor de visión de píxeles activos y dinámicos) contiene un sensor de píxeles activos de obturador global (APS) además del sensor de visión dinámica (DVS) que comparte la misma matriz de fotosensores . Por lo tanto, tiene la capacidad de producir fotogramas de imagen junto con los eventos. Muchas cámaras de eventos llevan además una unidad de medición inercial (IMU).

Sensores retinomórficos

Izquierda: diagrama esquemático de la sección transversal de un condensador fotosensible. Centro: diagrama de circuito de un sensor retinomórfico , con el condensador fotosensible en la parte superior. Derecha: respuesta transitoria esperada del sensor retinomórfico a la aplicación de iluminación constante.

Otra clase de sensores de eventos son los llamados sensores retinomórficos . Si bien el término retinomórfico se ha utilizado para describir los sensores de eventos en general, [15] [16] en 2020 se adoptó como el nombre de un diseño de sensor específico basado en una resistencia y un condensador fotosensible en serie. [17] Estos condensadores son distintos de los fotocondensadores, que se utilizan para almacenar energía solar , [18] y, en cambio, están diseñados para cambiar la capacitancia bajo iluminación. Se cargan/descargan ligeramente cuando se cambia la capacitancia, pero por lo demás permanecen en equilibrio. Cuando se coloca un condensador fotosensible en serie con una resistencia y se aplica un voltaje de entrada a través del circuito, el resultado es un sensor que emite un voltaje cuando cambia la intensidad de la luz, pero no lo hace en caso contrario.

A diferencia de otros sensores de eventos (normalmente un fotodiodo y otros elementos de circuito), estos sensores producen la señal de forma inherente. Por lo tanto, pueden considerarse un único dispositivo que produce el mismo resultado que un pequeño circuito en otras cámaras de eventos. Hasta la fecha, los sensores retinomórficos solo se han estudiado en un entorno de investigación. [19] [20] [21] [22]

Algoritmos

Reconstrucción de carrera nocturna
Un peatón corre delante de los faros de un coche por la noche. Izquierda: la imagen tomada con una cámara convencional muestra un desenfoque de movimiento y una subexposición importantes. Derecha: imagen reconstruida combinando la imagen de la izquierda con los eventos de una cámara de eventos. [23]

Reconstrucción de imágenes

La reconstrucción de imágenes a partir de eventos tiene el potencial de crear imágenes y videos con un alto rango dinámico, alta resolución temporal y reducción del desenfoque de movimiento. La reconstrucción de imágenes se puede lograr mediante suavizado temporal, por ejemplo, un filtro de paso alto o complementario. [23] Los métodos alternativos incluyen la optimización [24] y la estimación de gradiente [25] seguida de la integración de Poisson .

Convoluciones espaciales

El concepto de convolución espacial impulsada por eventos fue postulado en 1999 [26] (antes del DVS), pero luego generalizado durante el proyecto CAVIAR de la UE [27] (durante el cual se inventó el DVS) al proyectar evento por evento un núcleo de convolución arbitrario alrededor de la coordenada del evento en una matriz de píxeles de integración y disparo. [28] La extensión a convoluciones impulsadas por eventos de múltiples núcleos [29] permite redes neuronales convolucionales profundas impulsadas por eventos . [30]

Detección y seguimiento de movimiento

La segmentación y detección de objetos en movimiento vistos por una cámara de eventos puede parecer una tarea trivial, ya que la realiza el sensor en el chip. Sin embargo, estas tareas son difíciles, porque los eventos contienen poca información [31] y no contienen características visuales útiles como textura y color. [32] Estas tareas se vuelven aún más desafiantes si se utiliza una cámara en movimiento, [31] porque los eventos se activan en todas partes del plano de la imagen, producidos por objetos en movimiento y la escena estática (cuyo movimiento aparente es inducido por el ego-movimiento de la cámara). Algunos de los enfoques recientes para resolver este problema incluyen la incorporación de modelos de compensación de movimiento [33] [34] y algoritmos de agrupamiento tradicionales . [35] [36] [32] [37]

Aplicaciones potenciales

Las posibles aplicaciones incluyen la mayoría de las tareas que se adaptan a las cámaras convencionales, pero con énfasis en las tareas de visión artificial (como el reconocimiento de objetos, los vehículos autónomos y la robótica. [21] ). El ejército de los EE. UU. está considerando cámaras infrarrojas y de otros eventos debido a su menor consumo de energía y menor generación de calor. [7]

Teniendo en cuenta las ventajas que posee la cámara de eventos, en comparación con los sensores de imagen convencionales, se considera adecuada para aplicaciones que requieren un bajo consumo de energía, baja latencia y dificultad para estabilizar la línea de visión de la cámara. Estas aplicaciones incluyen los sistemas autónomos antes mencionados, pero también imágenes espaciales, seguridad, defensa y monitoreo industrial. Es notable que, si bien la investigación sobre la detección de color con cámaras de eventos está en marcha, [38] aún no es conveniente para su uso con aplicaciones que requieren detección de color.

Véase también

Referencias

  1. ^ Li, Hongmin; Liu, Hanchao; Ji, Xiangyang; Li, Guoqi; Shi, Luping (2017). "CIFAR10-DVS: Un conjunto de datos de flujo de eventos para la clasificación de objetos". Frontiers in Neuroscience . 11 : 309. doi : 10.3389/fnins.2017.00309 . ISSN  1662-453X. PMC  5447775 . PMID  28611582.
  2. ^ Sarmadi, Hamid; Muñoz-Salinas, Rafael; Olivares-Mendez, Miguel A.; Medina-Carnicer, Rafael (2021). "Detección de marcadores fiduciales cuadrados binarios utilizando una cámara de eventos". IEEE Access . 9 : 27813–27826. arXiv : 2012.06516 . Bibcode :2021IEEEA...927813S. doi :10.1109/ACCESS.2021.3058423. ISSN  2169-3536. S2CID  228375825.
  3. ^ Liu, Min; Delbruck, Tobi (mayo de 2017). "Flujo óptico de coincidencia de bloques para sensores de visión dinámicos: algoritmo e implementación de FPGA". Simposio internacional IEEE sobre circuitos y sistemas (ISCAS) de 2017. págs. 1–4. arXiv : 1706.05415 . doi :10.1109/ISCAS.2017.8050295. ISBN 978-1-4673-6853-7. S2CID  2283149 . Consultado el 27 de junio de 2021 .
  4. ^ abc Lichtsteiner, P.; Posch, C.; Delbruck, T. (febrero de 2008). "Un sensor de visión de contraste temporal asincrónico de 128×128 con latencia de 120 dB y 15 μs" (PDF) . IEEE Journal of Solid-State Circuits . 43 (2): 566–576. Bibcode :2008IJSSC..43..566L. doi :10.1109/JSSC.2007.914337. ISSN  0018-9200. S2CID  6119048. Archivado desde el original (PDF) el 2021-05-03 . Consultado el 2019-12-06 .
  5. ^ ab Posch, C.; Matolin, D.; Wohlgenannt, R. (enero de 2011). "Un sensor de imagen PWM sin cuadros de rango dinámico QVGA de 143 dB con compresión de video a nivel de píxel sin pérdida y CDS en el dominio del tiempo". IEEE Journal of Solid-State Circuits . 46 (1): 259–275. Bibcode :2011IJSSC..46..259P. doi :10.1109/JSSC.2010.2085952. ISSN  0018-9200. S2CID  21317717.
  6. ^ Longinotti, Luca. "Especificaciones del producto". iniVation . Archivado desde el original el 2019-04-02 . Consultado el 2019-04-21 .
  7. ^ ab "Un nuevo tipo de cámara". The Economist . 2022-01-29. ISSN  0013-0613 . Consultado el 2022-02-02 .
  8. ^ Hu, Yuhuang; Liu, Shih-Chii; Delbruck, Tobi (19 de abril de 2021). "v2e: De fotogramas de vídeo a eventos DVS realistas". arXiv : 2006.07722 [cs.CV].
  9. ^ Skorka, Orit (1 de julio de 2011). "Hacia una cámara digital que rivalice con el ojo humano". Journal of Electronic Imaging . 20 (3): 033009–033009–18. Bibcode :2011JEI....20c3009S. doi :10.1117/1.3611015. ISSN  1017-9909. S2CID  9340738.
  10. ^ DxO. «Nikon D850: pruebas y reseñas | DxOMark». www.dxomark.com . Consultado el 22 de abril de 2019 .
  11. ^ "Phantom v2640". www.phantomhighspeed.com . Consultado el 22 de abril de 2019 .
  12. ^ Longinotti, Luca. "Especificaciones del producto". iniVation . Archivado desde el original el 2019-04-02 . Consultado el 2019-04-22 .
  13. ^ Serrano-Gotarredona, T.; Linares-Barranco, B. (marzo de 2013). "Un sensor de visión dinámico asincrónico sin trama de 128x128 con sensibilidad de contraste de 1,5 %, FPN de 0,9 %, latencia de 3 μs y 4 mW que utiliza amplificadores de transimpedancia" (PDF) . IEEE Journal of Solid-State Circuits . 48 (3): 827–838. Bibcode :2013IJSSC..48..827S. doi :10.1109/JSSC.2012.2230553. ISSN  0018-9200. S2CID  6686013.
  14. ^ Brandli, C.; Berner, R.; Yang, M.; Liu, S.; Delbruck, T. (octubre de 2014). "Un sensor de visión espaciotemporal con obturador global de 240 × 180 130 dB y latencia de 3 µs". IEEE Journal of Solid-State Circuits . 49 (10): 2333–2341. Bibcode :2014IJSSC..49.2333B. doi : 10.1109/JSSC.2014.2342715 . ISSN  0018-9200.
  15. ^ Boahen, K. (1996). "Sistemas de visión retinomórfica". Actas de la Quinta Conferencia Internacional sobre Microelectrónica para Redes Neuronales . págs. 2–14. doi :10.1109/MNNFS.1996.493766. ISBN 0-8186-7373-7.S2CID62609792  .​
  16. ^ Posch, Christoph; Serrano-Gotarredona, Teresa; Linares-Barranco, Bernabe; Delbruck, Tobi (2014). "Sensores de visión basados ​​en eventos retinomórficos: cámaras bioinspiradas con salida de picos". Actas del IEEE . 102 (10): 1470–1484. doi :10.1109/JPROC.2014.2346153. hdl : 11441/102353 . ISSN  1558-2256. S2CID  11513955.
  17. ^ Trujillo Herrera, Cinthya; Labram, John G. (7 de diciembre de 2020). "Un sensor retinomórfico de perovskita". Applied Physics Letters . 117 (23): 233501. Bibcode :2020ApPhL.117w3501T. doi : 10.1063/5.0030097 . ISSN  0003-6951. S2CID  230546095.
  18. ^ Miyasaka, Tsutomu; Murakami, Takurou N. (25 de octubre de 2004). "El fotocondensador: un condensador autocargable eficiente para el almacenamiento directo de energía solar". Applied Physics Letters . 85 (17): 3932–3934. Bibcode :2004ApPhL..85.3932M. doi :10.1063/1.1810630. ISSN  0003-6951.
  19. ^ "El sensor de perovskita ve más como el ojo humano". Physics World . 2021-01-18 . Consultado el 2021-10-28 .
  20. ^ "Sensores simples similares a ojos podrían hacer que los sistemas de IA sean más eficientes". Inside Science . 8 de diciembre de 2020 . Consultado el 28 de octubre de 2021 .
  21. ^ ab Hambling, David. "La visión de la IA podría mejorarse con sensores que imitan los ojos humanos". New Scientist . Consultado el 28 de octubre de 2021 .
  22. ^ "Un ojo para una IA: un dispositivo óptico imita la retina humana". Revista BBC Science Focus . Consultado el 28 de octubre de 2021 .
  23. ^ ab Scheerlinck, Cedric; Barnes, Nick; Mahony, Robert (2019). "Estimación de intensidad en tiempo continuo utilizando cámaras de eventos". Visión artificial – ACCV 2018. Apuntes de clase en informática. Vol. 11365. Springer International Publishing. págs. 308–324. arXiv : 1811.00386 . doi :10.1007/978-3-030-20873-8_20. ISBN . 9783030208738. Número de identificación del sujeto  53182986.
  24. ^ Pan, Liyuan; Scheerlinck, Cedric; Yu, Xin; Hartley, Richard; Liu, Miaomiao; Dai, Yuchao (junio de 2019). "Cómo dar vida a un fotograma borroso a alta velocidad de fotogramas con una cámara de eventos". Conferencia IEEE/CVF de 2019 sobre visión artificial y reconocimiento de patrones (CVPR). Long Beach, CA, EE. UU.: IEEE. págs. 6813–6822. arXiv : 1811.10180 . doi :10.1109/CVPR.2019.00698. ISBN. 978-1-7281-3293-8.S2CID53749928  .​
  25. ^ Scheerlinck, Cedric; Barnes, Nick; Mahony, Robert (abril de 2019). "Convoluciones de imágenes espaciales asincrónicas para cámaras de eventos". IEEE Robotics and Automation Letters . 4 (2): 816–822. arXiv : 1812.00438 . doi :10.1109/LRA.2019.2893427. ISSN  2377-3766. S2CID  59619729.
  26. ^ Serrano-Gotarredona, T.; Andreou, A.; Linares-Barranco, B. (septiembre de 1999). "Arquitectura de filtrado de imágenes AER para sistemas de procesamiento de visión". IEEE Transactions on Circuits and Systems I: Fundamental Theory and Applications . 46 (9): 1064–1071. doi :10.1109/81.788808. hdl : 11441/76405 . ISSN  1057-7122.
  27. ^ Serrano-Gotarredona, R.; et, al (septiembre de 2009). "CAVIAR: Un sistema de procesamiento sensorial, aprendizaje y actuación de hardware AER de 45k neuronas, 5M sinapsis y 12G conexiones/s para el reconocimiento y seguimiento de objetos visuales de alta velocidad". IEEE Transactions on Neural Networks . 20 (9): 1417–1438. doi :10.1109/TNN.2009.2023653. hdl : 10261/86527 . ISSN  1045-9227. PMID  19635693. S2CID  6537174.
  28. ^ Serrano-Gotarredona, R.; Serrano-Gotarredona, T.; Acosta-Jimenez, A.; Linares-Barranco, B. (diciembre de 2006). "Un microchip neuromórfico de capa cortical para sistemas de visión de procesamiento de eventos basados ​​en picos". IEEE Transactions on Circuits and Systems I: Regular Papers . 53 (12): 2548–2566. doi :10.1109/TCSI.2006.883843. hdl : 10261/7823 . ISSN  1549-8328. S2CID  8287877.
  29. ^ Camuñas-Mesa, L.; et, al (febrero de 2012). "Un módulo de procesador de convolución multinúcleo controlado por eventos para sensores de visión controlados por eventos". IEEE Journal of Solid-State Circuits . 47 (2): 504–517. Bibcode :2012IJSSC..47..504C. doi :10.1109/JSSC.2011.2167409. hdl : 11441/93004 . ISSN  0018-9200. S2CID  23238741.
  30. ^ Pérez-Carrasco, JA; Zhao, B.; Serrano, C.; Acha, B.; Serrano-Gotarredona, T.; Chen, S.; Linares-Barranco, B. (noviembre de 2013). "Mapeo de sistemas de visión controlados por cuadros a sistemas controlados por eventos sin cuadros mediante codificación de baja velocidad y procesamiento de coincidencias. Aplicación a redes convolucionales de avance". IEEE Transactions on Pattern Analysis and Machine Intelligence . 35 (11): 2706–2719. doi :10.1109/TPAMI.2013.71. hdl : 11441/79657 . ISSN  0162-8828. PMID  24051730. S2CID  170040.
  31. ^ ab Gallego, Guillermo; Delbruck, Tobi; Orchard, Garrick Michael; Bartolozzi, Chiara; Taba, Brian; Censi, Andrea; Leutenegger, Stefan; Davison, Andrew; Conradt, Jorg; Daniilidis, Kostas; Scaramuzza, Davide (2020). "Visión basada en eventos: una encuesta". Transacciones IEEE sobre análisis de patrones e inteligencia de máquinas . PP (1): 154–180. arXiv : 1904.08405 . doi :10.1109/TPAMI.2020.3008413. ISSN  1939-3539. PMID  32750812. S2CID  234740723.
  32. ^ ab Mondal, Anindya; R, Shashant; Giraldo, Jhony H.; Bouwmans, Thierry; Chowdhury, Ananda S. (2021). "Detección de objetos en movimiento para visión basada en eventos mediante agrupamiento espectral de gráficos". Talleres de la Conferencia Internacional IEEE/CVF sobre Visión por Computador (ICCVW) de 2021. págs. 876–884. arXiv : 2109.14979 . doi :10.1109/ICCVW54120.2021.00103. ISBN 978-1-6654-0191-3. S2CID  238227007 – a través de IEEE Xplore.
  33. ^ Mitrokhin, Anton; Fermuller, Cornelia; Parameshwara, Chethan; Aloimonos, Yiannis (octubre de 2018). "Detección y seguimiento de objetos en movimiento basados ​​en eventos". 2018 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS) . Madrid: IEEE. pp. 1–9. arXiv : 1803.04523 . doi :10.1109/IROS.2018.8593805. ISBN 978-1-5386-8094-0.S2CID3845250  .​
  34. ^ Stoffregen, Timo; Gallego, Guillermo; Drummond, Tom; Kleeman, Lindsay; Scaramuzza, Davide (2019). "Segmentación de movimiento basada en eventos mediante compensación de movimiento". 2019 IEEE/CVF International Conference on Computer Vision (ICCV) . págs. 7244–7253. arXiv : 1904.01293 . doi :10.1109/ICCV.2019.00734. ISBN 978-1-7281-4803-8.S2CID 91183976  .
  35. ^ Piątkowska, Ewa; Belbachir, Ahmed Nabil; Schraml, Stephan; Gelautz, Margrit (junio de 2012). "Seguimiento espaciotemporal de múltiples personas mediante un sensor de visión dinámica". Talleres de la Conferencia sobre visión artificial y reconocimiento de patrones de la IEEE Computer Society de 2012. págs. 35–40. doi :10.1109/CVPRW.2012.6238892. ISBN 978-1-4673-1612-5.S2CID310741  .​
  36. ^ Chen, Guang; Cao, Hu; Aafaque, Muhammad; Chen, Jieneng; Ye, Canbo; Röhrbein, Florian; Conradt, Jörg; Chen, Kai; Bing, Zhenshan; Liu, Xingbo; Hinz, Gereon (2018-12-02). "Detección y seguimiento de múltiples vehículos basados ​​en visión neuromórfica para un sistema de transporte inteligente". Journal of Advanced Transportation . 2018 : e4815383. doi : 10.1155/2018/4815383 . ISSN  0197-6729.
  37. ^ Mondal, Anindya; Das, Mayukhmali (8 de noviembre de 2021). "Detección de objetos en movimiento para visión basada en eventos mediante agrupamiento de k-medias". 2021 IEEE 8th Uttar Pradesh Section International Conference on Electrical, Electronics and Computer Engineering (UPCON) . págs. 1–6. arXiv : 2109.01879 . doi :10.1109/UPCON52273.2021.9667636. ISBN 978-1-6654-0962-9. Número de identificación del sujeto  237420620.
  38. ^ "CED: Conjunto de datos de cámara de eventos en color". rpg.ifi.uzh.ch . Consultado el 8 de abril de 2024 .