Este método puede considerarse como un tipo de clasificación de imágenes de múltiples clases con una gran cantidad de clases, tan grande como el tamaño del vocabulario. Por lo general, las técnicas de aprendizaje automático utilizan el análisis de imágenes en forma de vectores de características extraídos y las palabras de anotación de entrenamiento para intentar aplicar anotaciones automáticamente a nuevas imágenes. Los primeros métodos aprendieron las correlaciones entre las características de la imagen y las anotaciones de entrenamiento, luego se desarrollaron técnicas utilizando la traducción automática para intentar traducir el vocabulario textual con el "vocabulario visual", o regiones agrupadas conocidas como manchas . El trabajo posterior a estos esfuerzos ha incluido enfoques de clasificación, modelos de relevancia, etc.
Las ventajas de la anotación automática de imágenes frente a la recuperación de imágenes basada en contenido (CBIR) son que el usuario puede especificar las consultas de forma más natural. [1] CBIR generalmente (en la actualidad) requiere que los usuarios busquen por conceptos de imagen como color y textura , o encuentren consultas de ejemplo. Ciertas características de la imagen en imágenes de ejemplo pueden anular el concepto en el que realmente se concentra el usuario. Los métodos tradicionales de recuperación de imágenes, como los utilizados por las bibliotecas, se han basado en imágenes anotadas manualmente, lo cual es costoso y requiere mucho tiempo, especialmente dadas las grandes bases de datos de imágenes que existen en constante crecimiento.
^ "Copia archivada" (PDF) . i.yz.yamagata-u.ac.jp . Archivado desde el original (PDF) el 8 de agosto de 2014 . Consultado el 13 de enero de 2022 .{{cite web}}: Mantenimiento CS1: copia archivada como título ( enlace )
Datta, Ritendra; Dhiraj Joshi; Jia Li ; James Z. Wang (2008). "Recuperación de imágenes: ideas, influencias y tendencias de la nueva era". Encuestas de Computación ACM . 40 (2): 1–60. doi :10.1145/1348246.1348248. S2CID 7060187.
Nicolás Hervé; Nozha Boujemaa (2007). "Anotación de imágenes: ¿qué enfoque para bases de datos realistas?" (PDF) . Conferencia internacional ACM sobre recuperación de imágenes y vídeos . Archivado desde el original (PDF) el 20 de mayo de 2011.
M Inoue (2004). "Sobre la necesidad de recuperación de imágenes basada en anotaciones" (PDF) . Taller sobre Recuperación de Información en Contexto . págs. 44–46. Archivado desde el original (PDF) el 8 de agosto de 2014.
Otras lecturas
Modelo de coocurrencia de palabras
Y Mori; H Takahashi y R Oka (1999). "Transformación de imagen en palabra basada en dividir y cuantificar vectorialmente imágenes con palabras". Actas del taller internacional sobre gestión de recuperación y almacenamiento inteligente multimedia . CiteSeerX 10.1.1.31.1704 .
Anotación como traducción automática
P Duygulu; K Barnard; N de Fretias y D Forsyth (2002). "Reconocimiento de objetos como traducción automática: aprendizaje de un léxico para un vocabulario de imágenes fijas". Actas de la Conferencia europea sobre visión por computadora . págs. 97-112. Archivado desde el original el 5 de marzo de 2005.
Modelos estadísticos
J Li y JZ Wang (2006). "Anotación computarizada de imágenes en tiempo real". Proc. ACM Multimedia . págs. 911–920.
JZ Wang y J Li (2002). "Indización lingüística de imágenes basada en el aprendizaje con MHMM 2-D". Proc. ACM Multimedia . págs. 436–445.
Indexación lingüística automática de imágenes.
J Li y JZ Wang (2008). "Anotación computarizada de imágenes en tiempo real". Transacciones IEEE sobre análisis de patrones e inteligencia artificial .
J Li y JZ Wang (2003). "Indización lingüística automática de imágenes mediante un enfoque de modelado estadístico". Transacciones IEEE sobre análisis de patrones e inteligencia artificial . págs. 1075-1088.
Modelo de clúster de aspectos jerárquicos
K Barnard; DA Forsyth (2001). "Aprendizaje de la semántica de palabras e imágenes". Actas de la Conferencia Internacional sobre Visión por Computadora . págs. 408–415. Archivado desde el original el 28 de septiembre de 2007.
Modelo de asignación latente de Dirichlet
D Blei; A Ng y M Jordan (2003). "Asignación latente de Dirichlet" (PDF) . Revista de investigación sobre aprendizaje automático . págs. 3:993–1022. Archivado desde el original (PDF) el 16 de marzo de 2005.
G Carneiro; AB Chan; P Moreno y N Vasconcelos (2006). "Aprendizaje supervisado de clases semánticas para anotación y recuperación de imágenes" (PDF) . Transacciones IEEE sobre análisis de patrones e inteligencia artificial . págs. 394–410.
Similitud de textura
RW Picard y TP Minka (1995). "Textura de visión para anotaciones". Sistemas Multimedia .
Máquinas de vectores de soporte
C Cusano; G Ciocca y R Scettini (2004). Santini, Simone y Schettini, Raimondo (eds.). "Anotación de imágenes mediante SVM". Imágenes de Internet V. 5304 : 330–338. Código Bib : 2003SPIE.5304..330C. doi :10.1117/12.526746. S2CID 16246057.
Conjunto de árboles de decisión y subventanas aleatorias
R Maree; P Geurts; J Piater y L Wehenkel (2005). "Subventanas aleatorias para una clasificación sólida de imágenes". Actas de la Conferencia Internacional IEEE sobre Visión por Computadora y Reconocimiento de Patrones . págs. 1:34–30.
Entropía máxima
J Jeon; R Manmatha (2004). "Uso de la máxima entropía para la anotación automática de imágenes" (PDF) . Conferencia Internacional sobre recuperación de imágenes y vídeos (CIVR 2004) . págs. 24-32.
Modelos de relevancia
J Jeon; V Lavrenko y R Manmatha (2003). "Anotación y recuperación automática de imágenes utilizando modelos de relevancia cross-media" (PDF) . Actas de la Conferencia ACM SIGIR sobre investigación y desarrollo en recuperación de información . págs. 119-126.
Modelos de relevancia que utilizan funciones de densidad de probabilidad continua.
V Lavrenko; R Manmatha y J Jeon (2003). "Un modelo para aprender la semántica de imágenes" (PDF) . Actas de la 16ª Conferencia sobre avances en sistemas de procesamiento de información neuronal NIPS .
Modelo de lenguaje coherente
R Jin; JY Chai; L Si (2004). "Anotación automática eficaz de imágenes mediante un modelo de lenguaje coherente y aprendizaje activo" (PDF) . Actas de MM'04 .
Redes de inferencia
D Metzler y R Manmatha (2004). "Un enfoque de red de inferencia para la recuperación de imágenes" (PDF) . Actas de la Conferencia Internacional sobre Recuperación de Imágenes y Vídeos . págs. 42–50.
Distribución múltiple de Bernoulli
S Feng; R. Manmatha y V. Lavrenko (2004). "Múltiples modelos de relevancia de Bernoulli para anotación de imágenes y vídeos" (PDF) . Conferencia IEEE sobre visión por computadora y reconocimiento de patrones . págs. 1002-1009.
Múltiples alternativas de diseño
JY Pan; HJ Yang; P Duygulu; C Faloutsos (2004). "Subtítulos automáticos de imágenes" (PDF) . Actas de la Conferencia Internacional IEEE 2004 sobre Multimedia y Exposición (ICME'04) . Archivado desde el original (PDF) el 9 de diciembre de 2004.
Subtítulos de imagen
Quan Hoang Lam; Quang Duy Le; Kiet Van Nguyen; Ngan Luu-Thuy Nguyen (2020). "UIT-ViIC: un conjunto de datos para la primera evaluación sobre subtítulos de imágenes vietnamitas". Actas de la Conferencia Internacional de 2020 sobre Inteligencia Colectiva Computacional (ICCCI 2020) . arXiv : 2002.00175 . doi :10.1007/978-3-030-63007-2_57.
Anotación de escena natural
J Fan; Y Gao; H Luo; G Xu (2004). "Anotación automática de imágenes mediante el uso de objetos destacados sensibles a conceptos para la representación del contenido de la imagen". Actas de la 27ª conferencia internacional anual sobre investigación y desarrollo en recuperación de información . págs. 361–368.
Filtros globales de bajo nivel relevantes
Una Oliva y Una Torralba (2001). "Modelado de la forma de la escena: una representación holística de la envolvente espacial" (PDF) . Revista Internacional de Visión por Computadora . págs. 42:145–175.
Características de imagen global y estimación de densidad no paramétrica.
A Yavlinsky, E Schofield y S Rüger (2005). "Anotación de imágenes automatizada utilizando funciones globales y una sólida estimación de densidad no paramétrica" (PDF) . Conferencia Internacional sobre recuperación de imágenes y vídeos (CIVR, Singapur, julio de 2005) . Archivado desde el original (PDF) el 20 de diciembre de 2005.
Semántica de vídeo
N Vasconcelos y A Lippman (2001). "Modelos estadísticos de estructura de vídeo para análisis y caracterización de contenidos" (PDF) . Transacciones IEEE sobre procesamiento de imágenes . págs. 1-17.
Ilaria Bartolini; Marco Patella y Corrado Romani (2010). "Shiatsu: etiquetado automático jerárquico de vídeos basado en la semántica mediante segmentación mediante cortes". 3er Taller Multimedia Internacional ACM sobre Extracción Automatizada de Información en Producción de Medios (AIEMPro10) .
Refinamiento de anotaciones de imágenes
Yohan Jin; Latifur Khan ; Lei Wang y Mamoun Awad (2005). "Anotaciones de imágenes mediante la combinación de múltiples pruebas y wordNet". 13.ª Conferencia Internacional Anual de ACM sobre Multimedia (MM 05) . págs. 706–715.
Changhu Wang; Feng Jing; Lei Zhang y Hong-Jiang Zhang (2006). "Refinamiento de la anotación de imágenes mediante paseo aleatorio con reinicios". 14ª Conferencia Internacional Anual ACM sobre Multimedia (MM 06) .
Changhu Wang; Feng Jing; Lei Zhang y Hong-Jiang Zhang (2007). "Refinamiento de anotaciones de imágenes basadas en contenido". Conferencia IEEE sobre visión por computadora y reconocimiento de patrones (CVPR 07) . doi :10.1109/CVPR.2007.383221.
Ilaria Bartolini y Paolo Ciaccia (2007). "Imaginación: explotación del análisis de enlaces para una anotación de imágenes precisa". Recuperación multimedia adaptativa de Springer . doi :10.1007/978-3-540-79860-6_3.
Ilaria Bartolini y Paolo Ciaccia (2010). "Búsqueda y anotación de imágenes multidimensionales basadas en palabras clave". 2do Taller Internacional ACM sobre Búsqueda de Palabras Clave en Datos Estructurados (KEYS 2010) .
Anotación automática de imágenes por conjunto de descriptores visuales
Emre Akbas y Fatos Y. Vural (2007). "Anotación automática de imágenes por conjunto de descriptores visuales". Internacional Conf. en Visión por Computador (CVPR) 2007, Taller sobre Aplicaciones de Aprendizaje Semántico en Multimedia . doi :10.1109/CVPR.2007.383484. hdl : 11511/16027 .
Una nueva base para la anotación de imágenes
Ameesh Makadia, Vladimir Pavlovic y Sanjiv Kumar (2008). "Una nueva base para la anotación de imágenes" (PDF) . Conferencia Europea sobre Visión por Computador (ECCV) .
Clasificación y anotación de imágenes simultáneas
Chong Wang, David Blei y Li Fei-Fei (2009). "Clasificación y anotación de imágenes simultáneas" (PDF) . Conf. sobre visión por computadora y reconocimiento de patrones (CVPR) .
TagProp: Aprendizaje de métricas discriminativas en modelos vecinos más cercanos para anotación automática de imágenes
Matthieu Guillaumin, Thomas Mensink, Jakob Verbeek y Cordelia Schmid (2009). "TagProp: aprendizaje de métricas discriminativas en modelos de vecino más cercano para anotación automática de imágenes" (PDF) . Internacional Conf. sobre Visión por Computador (ICCV) .
Anotación de imágenes mediante aprendizaje métrico en barrios semánticos
Yashaswi Verma y CV Jawahar (2012). "Anotación de imágenes mediante aprendizaje métrico en barrios semánticos" (PDF) . Conferencia Europea sobre Visión por Computador (ECCV) . Archivado desde el original (PDF) el 14 de mayo de 2013 . Consultado el 26 de febrero de 2014 .
Anotación automática de imágenes mediante representaciones de aprendizaje profundo
Venkatesh N. Murthy, Subhransu Maji y R. Manmatha (2015). "Anotación automática de imágenes mediante representaciones de aprendizaje profundo" (PDF) . Conferencia Internacional sobre Multimedia (ICMR) .
Anotación holística de imágenes utilizando regiones destacadas e información de la imagen de fondo
sarín, supheakmungkol; Fahrmair, Michael; Wagner, Matthias y Kameyama, Wataru (2012). Aprovechamiento de funciones de fondo y regiones destacadas para la anotación automática de imágenes. Revista de procesamiento de información. vol. 20. págs. 250–266.
Anotación de imágenes médicas mediante redes bayesianas y aprendizaje activo
NB Marvasti & E. Yörük y B. Acar (2018). "Anotación de imágenes médicas asistida por computadora: resultados preliminares con lesiones hepáticas en TC". Revista IEEE de Informática Biomédica y de Salud .