A menudo, las imágenes de prueba se toman de una distribución de datos diferente, lo que dificulta considerablemente la tarea de detección de objetos. [5] Para abordar los desafíos causados por la brecha de dominio entre los datos de entrenamiento y de prueba, se han propuesto muchos enfoques de adaptación de dominio no supervisados. [5] [6] [7] [8] [9] Una solución simple y directa para reducir la brecha de dominio es aplicar un enfoque de traducción de imagen a imagen, como ciclo-GAN. [10] Entre otros usos, la detección de objetos entre dominios se aplica en la conducción autónoma, donde los modelos se pueden entrenar en una gran cantidad de escenas de videojuegos, ya que las etiquetas se pueden generar sin trabajo manual.
Concepto
Cada clase de objeto tiene sus propias características especiales que ayudan a clasificar la clase; por ejemplo, todos los círculos son redondos. La detección de clases de objetos utiliza estas características especiales. Por ejemplo, cuando se buscan círculos, se buscan objetos que estén a una distancia particular de un punto (es decir, del centro). De manera similar, cuando se buscan cuadrados, se necesitan objetos que sean perpendiculares en las esquinas y tengan lados de igual longitud. Se utiliza un enfoque similar para la identificación de rostros, donde se pueden encontrar ojos, nariz y labios y características como el color de la piel y la distancia entre los ojos.
Métodos
Los métodos para la detección de objetos generalmente se dividen en enfoques basados en redes neuronales o no neuronales. Para los enfoques no neuronales, es necesario definir primero las características utilizando uno de los métodos siguientes y luego utilizar una técnica como la máquina de vectores de soporte (SVM) para realizar la clasificación. Por otro lado, las técnicas neuronales pueden realizar una detección de objetos de un extremo a otro sin definir características específicamente y, por lo general, se basan en redes neuronales convolucionales (CNN).
^ Dasiopoulou, Stamatia y col. "Detección de objetos de vídeo semántico asistida por conocimiento". Transacciones IEEE sobre circuitos y sistemas para tecnología de vídeo 15.10 (2005): 1210–1224.
^ Ling Guan; Yifeng Él; Sun-Yuan Kung (1 de marzo de 2012). Procesamiento Multimedia de Imagen y Vídeo. Prensa CRC. págs. 331–. ISBN 978-1-4398-3087-1.
^ Alsanabani, Ala; Ahmed, Mahoma; AL Smadi, Ahmad (2020). "Recuento de vehículos mediante combinaciones de detección y seguimiento: un análisis comparativo". 2020 la 4ta Conferencia Internacional sobre Procesamiento de Imágenes y Vídeo . págs. 48–54. doi :10.1145/3447450.3447458. ISBN9781450389075. S2CID 233194604.
^ Wu, Jianxin y col. "Un enfoque escalable para el reconocimiento de actividades basado en el uso de objetos". 2007 IEEE 11ª conferencia internacional sobre visión por computadora. IEEE, 2007.
^ ab Oza, Poojan; Sindagi, Vishwanath A.; VS, Vibashan; Patel, Vishal M. (4 de julio de 2021). "Adaptación de dominio no supervisado de detectores de objetos: una encuesta". arXiv : 2105.13502 [cs.CV].
^ Khodabandeh, Mehran; Vahdat, Arash; Ranjbar, Mani; Macready, William G. (18 de noviembre de 2019). "Un enfoque de aprendizaje sólido para la detección de objetos adaptativos de dominio". arXiv : 1904.02361 [cs.LG].
^ Soviany, Petru; Ionescu, Radu Tudor; Rota, Paolo; Sebe, Nicu (1 de marzo de 2021). "Plan de estudios de aprendizaje a su propio ritmo para la detección de objetos entre dominios". Visión por computadora y comprensión de imágenes . 204 : 103166. arXiv : 1911.06849 . doi :10.1016/j.cviu.2021.103166. ISSN 1077-3142. S2CID 208138033.
^ Menke, Maximiliano; Wenzel, Thomas; Schwung, Andreas (octubre de 2022). "Mejora de la adaptación del dominio basada en GAN para la detección de objetos". 2022 IEEE 25.ª Conferencia Internacional sobre Sistemas de Transporte Inteligentes (ITSC) . págs. 3880–3885. doi :10.1109/ITSC55140.2022.9922138. ISBN978-1-6654-6880-0. S2CID 253251380.
^ Menke, Maximiliano; Wenzel, Thomas; Schwung, Andreas (31 de agosto de 2022). "AWADA: Adaptación del dominio adversario ponderado por atención para la detección de objetos". arXiv : 2208.14662 [cs.CV].
^ Zhu, Jun-Yan; Parque, Taesung; Isola, Felipe; Efros, Alexei A. (24 de agosto de 2020). "Traducción no emparejada de imagen a imagen utilizando redes adversarias consistentes en ciclos". arXiv : 1703.10593 [cs.CV].
^ Ferrie, C. y Kaiser, S. (2019). Redes neuronales para bebés . Libros de consulta. ISBN1492671207.{{cite book}}: Mantenimiento CS1: varios nombres: lista de autores ( enlace )
^ Dalal, Navneet (2005). "Histogramas de gradientes orientados para detección humana" (PDF) . Visión por computadora y reconocimiento de patrones . 1 .
^ Ross, Girshick (2014). "Ricas jerarquías de funciones para una detección precisa de objetos y una segmentación semántica" (PDF) . Actas de la Conferencia IEEE sobre visión por computadora y reconocimiento de patrones . IEEE. págs. 580–587. arXiv : 1311.2524 . doi :10.1109/CVPR.2014.81. ISBN978-1-4799-5118-5. S2CID 215827080.
^ Girschick, Ross (2015). "R-CNN rápido" (PDF) . Actas de la Conferencia Internacional IEEE sobre Visión por Computadora . págs. 1440-1448. arXiv : 1504.08083 . Código Bib : 2015arXiv150408083G.
^ Shaoqing, Ren (2015). "R-CNN más rápido". Avances en los sistemas de procesamiento de información neuronal . arXiv : 1506.01497 .
^ ab Pang, Jiangmiao; Chen, Kai; Shi, Jianping; Feng, Huajun; Ouyang, Wanli; Lin, Dahua (4 de abril de 2019). "Libra R-CNN: hacia un aprendizaje equilibrado para la detección de objetos". arXiv : 1904.02701v1 [cs.CV].
^ Liu, Wei (octubre de 2016). "SSD: detector MultiBox de disparo único". Visión por Computador – ECCV 2016 . Apuntes de conferencias sobre informática. vol. 9905, págs. 21–37. arXiv : 1512.02325 . doi :10.1007/978-3-319-46448-0_2. ISBN978-3-319-46447-3. S2CID 2141740.
^ Zhang, Shifeng (2018). "Red neuronal de refinamiento de disparo único para la detección de objetos". Actas de la Conferencia IEEE sobre visión por computadora y reconocimiento de patrones . págs. 4203–4212. arXiv : 1711.06897 . Código Bib : 2017arXiv171106897Z.
^ Lin, Tsung-Yi (2020). "Pérdida focal para la detección de objetos densos". Transacciones IEEE sobre análisis de patrones e inteligencia artificial . 42 (2): 318–327. arXiv : 1708.02002 . Código Bib : 2017arXiv170802002L. doi :10.1109/TPAMI.2018.2858826. PMID 30040631. S2CID 47252984.
"Detección de clases de objetos". Vision.eecs.ucf.edu. Archivado desde el original el 14 de julio de 2013 . Consultado el 9 de octubre de 2013 .
"ETHZ - Laboratorio de visión por computadora: Publicaciones". Vision.ee.ethz.ch. Archivado desde el original el 3 de junio de 2013 . Consultado el 9 de octubre de 2013 .