Detección de objetos

Objetos detectados con el módulo Deep Neural Network (dnn) de OpenCV mediante el uso de un modelo YOLOv3 entrenado en el conjunto de datos COCO capaz de detectar objetos de 80 clases comunes

La detección de objetos es una tecnología informática relacionada con la visión por computadora y el procesamiento de imágenes que se ocupa de detectar instancias de objetos semánticos de una determinada clase (como humanos, edificios o automóviles) en imágenes y videos digitales. ^[1] Los dominios de detección de objetos bien investigados incluyen la detección de rostros y la detección de peatones . La detección de objetos tiene aplicaciones en muchas áreas de la visión por computadora, incluida la recuperación de imágenes y la videovigilancia .

Usos

Se usa ampliamente en tareas de visión por computadora , como anotación de imágenes , ^[2] recuento de vehículos, ^[3] reconocimiento de actividad , ^[4] detección de rostros , reconocimiento de rostros y cosegmentación de objetos de video . También se utiliza para rastrear objetos , por ejemplo, rastrear una pelota durante un partido de fútbol, rastrear el movimiento de un bate de cricket o rastrear a una persona en un video.

A menudo, las imágenes de prueba se toman de una distribución de datos diferente, lo que dificulta considerablemente la tarea de detección de objetos. ^[5] Para abordar los desafíos causados por la brecha de dominio entre los datos de entrenamiento y de prueba, se han propuesto muchos enfoques de adaptación de dominio no supervisados. ^[5]^[6]^[7]^[8]^[9] Una solución simple y directa para reducir la brecha de dominio es aplicar un enfoque de traducción de imagen a imagen, como ciclo-GAN. ^[10] Entre otros usos, la detección de objetos entre dominios se aplica en la conducción autónoma, donde los modelos se pueden entrenar en una gran cantidad de escenas de videojuegos, ya que las etiquetas se pueden generar sin trabajo manual.

Concepto

Cada clase de objeto tiene sus propias características especiales que ayudan a clasificar la clase; por ejemplo, todos los círculos son redondos. La detección de clases de objetos utiliza estas características especiales. Por ejemplo, cuando se buscan círculos, se buscan objetos que estén a una distancia particular de un punto (es decir, del centro). De manera similar, cuando se buscan cuadrados, se necesitan objetos que sean perpendiculares en las esquinas y tengan lados de igual longitud. Se utiliza un enfoque similar para la identificación de rostros, donde se pueden encontrar ojos, nariz y labios y características como el color de la piel y la distancia entre los ojos.

Métodos

Los métodos para la detección de objetos generalmente se dividen en enfoques basados en redes neuronales o no neuronales. Para los enfoques no neuronales, es necesario definir primero las características utilizando uno de los métodos siguientes y luego utilizar una técnica como la máquina de vectores de soporte (SVM) para realizar la clasificación. Por otro lado, las técnicas neuronales pueden realizar una detección de objetos de un extremo a otro sin definir características específicamente y, por lo general, se basan en redes neuronales convolucionales (CNN).

Enfoques no neuronales:
- Marco de detección de objetos de Viola-Jones basado en características de Haar
- Transformación de características invariantes de escala (SIFT)
- Características del histograma de gradientes orientados (HOG) ^[12]
Enfoques de redes neuronales:
- Propuestas de región (R-CNN, ^[13] R-CNN rápido, ^[14] R-CNN más rápido, ^[15] R-CNN en cascada. ^[16] )
- Detector MultiBox de disparo único (SSD) ^[17]
- Red neuronal de refinamiento de disparo único para detección de objetos (RefineDet) ^[18]
- Retina-Net ^[19]^[16]
- Redes convolucionales deformables ^[20]^[21]

Ver también

Referencias

^ Dasiopoulou, Stamatia y col. "Detección de objetos de vídeo semántico asistida por conocimiento". Transacciones IEEE sobre circuitos y sistemas para tecnología de vídeo 15.10 (2005): 1210–1224.
^ Ling Guan; Yifeng Él; Sun-Yuan Kung (1 de marzo de 2012). Procesamiento Multimedia de Imagen y Vídeo. Prensa CRC. págs. 331–. ISBN 978-1-4398-3087-1.
^ Alsanabani, Ala; Ahmed, Mahoma; AL Smadi, Ahmad (2020). "Recuento de vehículos mediante combinaciones de detección y seguimiento: un análisis comparativo". 2020 la 4ta Conferencia Internacional sobre Procesamiento de Imágenes y Vídeo . págs. 48–54. doi :10.1145/3447450.3447458. ISBN 9781450389075. S2CID 233194604.
^ Wu, Jianxin y col. "Un enfoque escalable para el reconocimiento de actividades basado en el uso de objetos". 2007 IEEE 11ª conferencia internacional sobre visión por computadora. IEEE, 2007.
^ ab Oza, Poojan; Sindagi, Vishwanath A.; VS, Vibashan; Patel, Vishal M. (4 de julio de 2021). "Adaptación de dominio no supervisado de detectores de objetos: una encuesta". arXiv : 2105.13502 [cs.CV].
^ Khodabandeh, Mehran; Vahdat, Arash; Ranjbar, Mani; Macready, William G. (18 de noviembre de 2019). "Un enfoque de aprendizaje sólido para la detección de objetos adaptativos de dominio". arXiv : 1904.02361 [cs.LG].
^ Soviany, Petru; Ionescu, Radu Tudor; Rota, Paolo; Sebe, Nicu (1 de marzo de 2021). "Plan de estudios de aprendizaje a su propio ritmo para la detección de objetos entre dominios". Visión por computadora y comprensión de imágenes . 204 : 103166. arXiv : 1911.06849 . doi :10.1016/j.cviu.2021.103166. ISSN 1077-3142. S2CID 208138033.
^ Menke, Maximiliano; Wenzel, Thomas; Schwung, Andreas (octubre de 2022). "Mejora de la adaptación del dominio basada en GAN para la detección de objetos". 2022 IEEE 25.ª Conferencia Internacional sobre Sistemas de Transporte Inteligentes (ITSC) . págs. 3880–3885. doi :10.1109/ITSC55140.2022.9922138. ISBN 978-1-6654-6880-0. S2CID 253251380.
^ Menke, Maximiliano; Wenzel, Thomas; Schwung, Andreas (31 de agosto de 2022). "AWADA: Adaptación del dominio adversario ponderado por atención para la detección de objetos". arXiv : 2208.14662 [cs.CV].
^ Zhu, Jun-Yan; Parque, Taesung; Isola, Felipe; Efros, Alexei A. (24 de agosto de 2020). "Traducción no emparejada de imagen a imagen utilizando redes adversarias consistentes en ciclos". arXiv : 1703.10593 [cs.CV].
^ Ferrie, C. y Kaiser, S. (2019). Redes neuronales para bebés . Libros de consulta. ISBN 1492671207.{{cite book}}: Mantenimiento CS1: varios nombres: lista de autores ( enlace )
^ Dalal, Navneet (2005). "Histogramas de gradientes orientados para detección humana" (PDF) . Visión por computadora y reconocimiento de patrones . 1 .
^ Ross, Girshick (2014). "Ricas jerarquías de funciones para una detección precisa de objetos y una segmentación semántica" (PDF) . Actas de la Conferencia IEEE sobre visión por computadora y reconocimiento de patrones . IEEE. págs. 580–587. arXiv : 1311.2524 . doi :10.1109/CVPR.2014.81. ISBN 978-1-4799-5118-5. S2CID 215827080.
^ Girschick, Ross (2015). "R-CNN rápido" (PDF) . Actas de la Conferencia Internacional IEEE sobre Visión por Computadora . págs. 1440-1448. arXiv : 1504.08083 . Código Bib : 2015arXiv150408083G.
^ Shaoqing, Ren (2015). "R-CNN más rápido". Avances en los sistemas de procesamiento de información neuronal . arXiv : 1506.01497 .
^ ab Pang, Jiangmiao; Chen, Kai; Shi, Jianping; Feng, Huajun; Ouyang, Wanli; Lin, Dahua (4 de abril de 2019). "Libra R-CNN: hacia un aprendizaje equilibrado para la detección de objetos". arXiv : 1904.02701v1 [cs.CV].
^ Liu, Wei (octubre de 2016). "SSD: detector MultiBox de disparo único". Visión por Computador – ECCV 2016 . Apuntes de conferencias sobre informática. vol. 9905, págs. 21–37. arXiv : 1512.02325 . doi :10.1007/978-3-319-46448-0_2. ISBN 978-3-319-46447-3. S2CID 2141740.
^ Zhang, Shifeng (2018). "Red neuronal de refinamiento de disparo único para la detección de objetos". Actas de la Conferencia IEEE sobre visión por computadora y reconocimiento de patrones . págs. 4203–4212. arXiv : 1711.06897 . Código Bib : 2017arXiv171106897Z.
^ Lin, Tsung-Yi (2020). "Pérdida focal para la detección de objetos densos". Transacciones IEEE sobre análisis de patrones e inteligencia artificial . 42 (2): 318–327. arXiv : 1708.02002 . Código Bib : 2017arXiv170802002L. doi :10.1109/TPAMI.2018.2858826. PMID 30040631. S2CID 47252984.
^ Zhu, Xizhou (2018). "ConvNets deformables v2: más deformables, mejores resultados". arXiv : 1811.11168 [cs.CV].
^ Dai, Jifeng (2017). "Redes convolucionales deformables". arXiv : 1703.06211 [cs.CV].

"Detección de clases de objetos". Vision.eecs.ucf.edu. Archivado desde el original el 14 de julio de 2013 . Consultado el 9 de octubre de 2013 .
"ETHZ - Laboratorio de visión por computadora: Publicaciones". Vision.ee.ethz.ch. Archivado desde el original el 3 de junio de 2013 . Consultado el 9 de octubre de 2013 .

enlaces externos

Detección de clases de objetos múltiples
Localización de la acción espacio-temporal.
Demostración de detección de objetos en línea
Detección y cosegmentación de objetos de vídeo.