Detección de objetos

Objetos detectados con el módulo de red neuronal profunda (dnn) de OpenCV mediante un modelo YOLOv3 entrenado en el conjunto de datos COCO capaz de detectar objetos de 80 clases comunes

La detección de objetos es una tecnología informática relacionada con la visión artificial y el procesamiento de imágenes que se ocupa de detectar instancias de objetos semánticos de una determinada clase (como humanos, edificios o automóviles) en imágenes y vídeos digitales. ^[1] Los dominios de detección de objetos bien investigados incluyen la detección de rostros y la detección de peatones . La detección de objetos tiene aplicaciones en muchas áreas de la visión artificial, incluida la recuperación de imágenes y la videovigilancia .

Usos

Se utiliza ampliamente en tareas de visión artificial , como anotación de imágenes , ^[2] conteo de vehículos, ^[3] reconocimiento de actividades , ^[4] detección de rostros , reconocimiento facial y cosegmentación de objetos de video . También se utiliza para rastrear objetos , por ejemplo, rastrear una pelota durante un partido de fútbol, rastrear el movimiento de un bate de cricket o rastrear a una persona en un video.

A menudo, las imágenes de prueba se muestrean a partir de una distribución de datos diferente, lo que hace que la tarea de detección de objetos sea significativamente más difícil. ^[5] Para abordar los desafíos causados por la brecha de dominio entre los datos de entrenamiento y de prueba, se han propuesto muchos enfoques de adaptación de dominio no supervisados. ^[5]^[6]^[7]^[8]^[9] Una solución simple y directa para reducir la brecha de dominio es aplicar un enfoque de traducción de imagen a imagen, como cycle-GAN. ^[10] Entre otros usos, la detección de objetos entre dominios se aplica en la conducción autónoma, donde los modelos se pueden entrenar en una gran cantidad de escenas de videojuegos, ya que las etiquetas se pueden generar sin trabajo manual.

Concepto

Cada clase de objeto tiene sus propias características especiales que ayudan a clasificar la clase; por ejemplo, todos los círculos son redondos. La detección de clases de objetos utiliza estas características especiales. Por ejemplo, cuando se buscan círculos, se buscan objetos que estén a una distancia particular de un punto (es decir, el centro). De manera similar, cuando se buscan cuadrados, se necesitan objetos que sean perpendiculares en las esquinas y tengan longitudes de lado iguales. Se utiliza un enfoque similar para la identificación de rostros , donde se pueden encontrar ojos, nariz y labios y se pueden encontrar características como el color de la piel y la distancia entre los ojos.

Puntos de referencia

Intersección sobre unión como medida de similitud para la detección de objetos en imágenes: una tarea importante en visión por computadora .

Para la localización de objetos, el verdadero positivo se mide a menudo por la intersección sobre la unión con umbral . Por ejemplo, si hay una señal de tráfico en la imagen, con un cuadro delimitador dibujado por un humano ("etiqueta de verdad fundamental"), entonces una red neuronal ha detectado la señal de tráfico (un verdadero positivo ) en el umbral de 0,5 si ha dibujado un cuadro delimitador cuyo IoU con la verdad fundamental es superior a 0,5. De lo contrario, el cuadro delimitador es un falso positivo .

Si solo hay un único cuadro delimitador de verdad fundamental, pero múltiples predicciones, se calcula el IoU de cada predicción. La predicción con el IoU más alto es un verdadero positivo si está por encima del umbral; de lo contrario, es un falso positivo. Todos los demás cuadros delimitadores previstos son falsos positivos. Si no hay ninguna predicción con un IoU por encima del umbral, la etiqueta de verdad fundamental tiene un falso negativo .

Para la localización y clasificación simultánea de objetos, un verdadero positivo es aquel en el que la etiqueta de clase es correcta y el cuadro delimitador tiene un IoU que excede el umbral.

La localización y clasificación simultánea de objetos se mide mediante la precisión media promedio (mAP). La precisión promedio (AP) de la red para una clase de objetos es el área bajo la curva de precisión-recuperación a medida que varía el umbral de IoU. La mAP es el promedio de la AP para todas las clases.

Métodos

Los métodos de detección de objetos generalmente se dividen en enfoques basados en redes neuronales o no neuronales. En el caso de los enfoques no neuronales, es necesario definir primero las características utilizando uno de los métodos que se indican a continuación y, a continuación, utilizar una técnica como una máquina de vectores de soporte (SVM) para realizar la clasificación. Por otro lado, las técnicas neuronales pueden realizar la detección de objetos de extremo a extremo sin definir específicamente las características y, por lo general, se basan en redes neuronales convolucionales (CNN).

Enfoques no neuronales:
- Marco de detección de objetos de Viola-Jones basado en las características de Haar
- Transformación de características invariante a escala (SIFT)
- Características del histograma de gradientes orientados (HOG) ^[12]
Enfoques de redes neuronales:
- Sobreproducción ^[13]
- Propuestas de región (R-CNN, ^[14] R-CNN rápida, ^[15] R-CNN más rápida, ^[16] R-CNN en cascada. ^[17] )
- Sólo se mira una vez (YOLO). ^[18]
- Detector de múltiples cajas de disparo único (SSD) ^[19]
- Red neuronal de refinamiento de disparo único para detección de objetos (RefineDet) ^[20]
- Retina-Net ^[21]^[17]
- Redes convolucionales deformables ^[22]^[23]

Véase también

Referencias

^ Dasiopoulou, Stamatia, et al. "Detección de objetos de vídeo semánticos asistida por conocimiento". IEEE Transactions on Circuits and Systems for Video Technology 15.10 (2005): 1210–1224.
^ Ling Guan; Yifeng He; Sun-Yuan Kung (1 de marzo de 2012). Procesamiento de imágenes y videos multimedia. CRC Press. pp. 331–. ISBN 978-1-4398-3087-1.
^ Alsanabani, Ala; Ahmed, Mohammed; AL Smadi, Ahmad (2020). "Conteo de vehículos mediante combinaciones de detección y seguimiento: un análisis comparativo". 2020, la 4.ª Conferencia internacional sobre procesamiento de imágenes y vídeo . págs. 48–54. doi :10.1145/3447450.3447458. ISBN 9781450389075. Número de identificación del sujeto 233194604.
^ Wu, Jianxin; Osuntogun, Adebola; Choudhury, Tanzeem; Philipose, Matthai; Rehg, James M. (2007). "Un enfoque escalable para el reconocimiento de actividades basado en el uso de objetos". 2007 IEEE 11th International Conference on Computer Vision . págs. 1–8. doi :10.1109/ICCV.2007.4408865. ISBN 978-1-4244-1630-1.
^ ab Oza, Poojan; Sindagi, Vishwanath A.; VS, Vibashan; Patel, Vishal M. (4 de julio de 2021). "Adaptación de dominio no supervisada de detectores de objetos: un estudio". arXiv : 2105.13502 [cs.CV].
^ Khodabandeh, Mehran; Vahdat, Arash; Ranjbar, Mani; Macready, William G. (18 de noviembre de 2019). "Un enfoque de aprendizaje robusto para la detección adaptativa de objetos de dominio". arXiv : 1904.02361 [cs.LG].
^ Soviany, Petru; Ionescu, Radu Tudor; Rota, Paolo; Sebe, Nicu (1 de marzo de 2021). "Aprendizaje a ritmo propio del plan de estudios para la detección de objetos entre dominios". Visión por computadora y comprensión de imágenes . 204 : 103166. arXiv : 1911.06849 . doi :10.1016/j.cviu.2021.103166. ISSN 1077-3142. S2CID 208138033.
^ Menke, Maximilian; Wenzel, Thomas; Schwung, Andreas (octubre de 2022). "Mejora de la adaptación de dominio basada en GAN para la detección de objetos". 2022 IEEE 25th International Conference on Intelligent Transportation Systems (ITSC) . págs. 3880–3885. doi :10.1109/ITSC55140.2022.9922138. ISBN 978-1-6654-6880-0. Número de identificación del sujeto 253251380.
^ Menke, Maximilian; Wenzel, Thomas; Schwung, Andreas (31 de agosto de 2022). "AWADA: Adaptación del dominio adversario ponderada por la atención para la detección de objetos". arXiv : 2208.14662 [cs.CV].
^ Zhu, Jun-Yan; Park, Taesung; Isola, Phillip; Efros, Alexei A. (24 de agosto de 2020). "Traducción de imagen a imagen no pareada mediante redes adversarias consistentes en ciclos". arXiv : 1703.10593 [cs.CV].
^ Ferrie, C., y Kaiser, S. (2019). Redes neuronales para bebés . Libros de consulta. ISBN 978-1492671206.{{cite book}}: CS1 maint: varios nombres: lista de autores ( enlace )
^ Dalal, Navneet (2005). "Histogramas de gradientes orientados para la detección humana" (PDF) . Visión artificial y reconocimiento de patrones . 1 .
^ Sermanet, Pierre; Eigen, David; Zhang, Xiang; Mathieu, Michael; Fergus, Rob; LeCun, Yann (23 de febrero de 2014). "OverFeat: reconocimiento, localización y detección integrados mediante redes convolucionales". arXiv : 1312.6229 [cs.CV].
^ Ross, Girshick (2014). "Rich feature jerarquies for accurate object detection and semantic segmentation" (PDF) . Actas de la Conferencia IEEE sobre Visión artificial y reconocimiento de patrones . IEEE. págs. 580–587. arXiv : 1311.2524 . doi :10.1109/CVPR.2014.81. ISBN. 978-1-4799-5118-5. Número de identificación del sujeto 215827080.
^ Girschick, Ross (2015). "Fast R-CNN" (PDF) . Actas de la Conferencia Internacional IEEE sobre Visión por Computador . págs. 1440–1448. arXiv : 1504.08083 .
^ Shaoqing, Ren (2015). "R-CNN más rápida". Avances en sistemas de procesamiento de información neuronal . arXiv : 1506.01497 .
^ ab Pang, Jiangmiao; Chen, Kai; Shi, Jianping; Feng, Huajun; Ouyang, Wanli; Lin, Dahua (4 de abril de 2019). "Libra R-CNN: hacia un aprendizaje equilibrado para la detección de objetos". arXiv : 1904.02701v1 [cs.CV].
^ Redmon, Joseph; Divvala, Santosh; Girshick, Ross; Farhadi, Ali (9 de mayo de 2016). "Solo miras una vez: detección unificada de objetos en tiempo real". arXiv : 1506.02640 [cs.CV].
^ Liu, Wei (octubre de 2016). "SSD: Single Shot MultiBox Detector". Visión artificial – ECCV 2016. Apuntes de clase en informática. Vol. 9905. págs. 21–37. arXiv : 1512.02325 . doi :10.1007/978-3-319-46448-0_2. ISBN 978-3-319-46447-3. Número de identificación del sujeto 2141740.
^ Zhang, Shifeng (2018). "Red neuronal de refinamiento de disparo único para detección de objetos". Actas de la Conferencia IEEE sobre visión artificial y reconocimiento de patrones . págs. 4203–4212. arXiv : 1711.06897 .
^ Lin, Tsung-Yi (2020). "Pérdida focal para detección de objetos densos". Transacciones IEEE sobre análisis de patrones e inteligencia artificial . 42 (2): 318–327. arXiv : 1708.02002 . doi :10.1109/TPAMI.2018.2858826. PMID 30040631. S2CID 47252984.
^ Zhu, Xizhou (2018). "ConvNets deformables v2: más deformables, mejores resultados". arXiv : 1811.11168 [cs.CV].
^ Dai, Jifeng (2017). "Redes convolucionales deformables". arXiv : 1703.06211 [cs.CV].

"Detección de clases de objetos". Vision.eecs.ucf.edu. Archivado desde el original el 14 de julio de 2013. Consultado el 9 de octubre de 2013 .
«ETHZ – Computer Vision Lab: Publications». Vision.ee.ethz.ch. Archivado desde el original el 2013-06-03 . Consultado el 2013-10-09 .

Enlaces externos

Weng, Lilian (2017-10-29). "Detección de objetos para principiantes, parte 1: vector de gradiente, HOG y SS". lilianweng.github.io . Consultado el 2024-09-11 .
Weng, Lilian (15 de diciembre de 2017). "Detección de objetos para principiantes, parte 2: CNN, DPM y Overfeat". lilianweng.github.io . Consultado el 11 de septiembre de 2024 .
Weng, Lilian (31 de diciembre de 2017). "Detección de objetos para principiantes, parte 3: familia R-CNN". lilianweng.github.io . Consultado el 11 de septiembre de 2024 .
Weng, Lilian (2018-12-27). "Detección de objetos, parte 4: modelos de detección rápida". lilianweng.github.io . Consultado el 2024-09-11 .
Detección de múltiples clases de objetos
Localización de acciones espacio-temporales
Demostración de detección de objetos en línea
Detección y cosegmentación de objetos en vídeo