La anotación automática de imágenes (también conocida como etiquetado automático de imágenes o indexación lingüística ) es el proceso mediante el cual un sistema informático asigna automáticamente metadatos en forma de subtítulos o palabras clave a una imagen digital . Esta aplicación de las técnicas de visión artificial se utiliza en sistemas de recuperación de imágenes para organizar y localizar imágenes de interés en una base de datos .
Este método puede considerarse un tipo de clasificación de imágenes multiclase con una gran cantidad de clases, tan grande como el tamaño del vocabulario. Por lo general, las técnicas de aprendizaje automático utilizan el análisis de imágenes en forma de vectores de características extraídos y las palabras de anotación de entrenamiento para intentar aplicar automáticamente anotaciones a nuevas imágenes. Los primeros métodos aprendieron las correlaciones entre las características de la imagen y las anotaciones de entrenamiento, luego se desarrollaron técnicas utilizando la traducción automática para intentar traducir el vocabulario textual con el "vocabulario visual" o regiones agrupadas conocidas como blobs . El trabajo posterior a estos esfuerzos ha incluido enfoques de clasificación, modelos de relevancia, etc.
Las ventajas de la anotación automática de imágenes frente a la recuperación de imágenes basada en contenido (CBIR) son que el usuario puede especificar las consultas de forma más natural. [1] En general, la CBIR (actualmente) requiere que los usuarios busquen por conceptos de imagen, como color y textura , o que encuentren consultas de ejemplo. Ciertas características de las imágenes de ejemplo pueden anular el concepto en el que realmente se centra el usuario. Los métodos tradicionales de recuperación de imágenes, como los utilizados por las bibliotecas, se han basado en imágenes anotadas manualmente, lo que es costoso y requiere mucho tiempo, especialmente dadas las grandes bases de datos de imágenes que existen y que crecen constantemente.
^ "Copia archivada" (PDF) . i.yz.yamagata-u.ac.jp . Archivado desde el original (PDF) el 8 de agosto de 2014 . Consultado el 13 de enero de 2022 .{{cite web}}: CS1 maint: copia archivada como título ( enlace )
Datta, Ritendra; Dhiraj Joshi; Jia Li ; James Z. Wang (2008). "Recuperación de imágenes: ideas, influencias y tendencias de la nueva era". Encuestas de computación de la ACM . 40 (2): 1–60. doi :10.1145/1348246.1348248. S2CID 7060187.
Nicolas Hervé; Nozha Boujemaa (2007). "Anotación de imágenes: ¿qué enfoque utilizar para bases de datos realistas?" (PDF) . Conferencia internacional de la ACM sobre recuperación de imágenes y vídeos . Archivado desde el original (PDF) el 20 de mayo de 2011.
M Inoue (2004). "Sobre la necesidad de una recuperación de imágenes basada en anotaciones" (PDF) . Taller sobre recuperación de información en contexto . pp. 44–46. Archivado desde el original (PDF) el 8 de agosto de 2014.
Lectura adicional
Modelo de coocurrencia de palabras
Y Mori; H Takahashi y R Oka (1999). "Transformación de imagen a palabra basada en la división y cuantificación vectorial de imágenes con palabras". Actas del Taller internacional sobre gestión inteligente de almacenamiento y recuperación multimedia . CiteSeerX 10.1.1.31.1704 .
Anotación como traducción automática
P Duygulu; K Barnard; N de Fretias y D Forsyth (2002). "Reconocimiento de objetos como traducción automática: aprendizaje de un léxico para un vocabulario de imágenes fijas". Actas de la Conferencia Europea sobre Visión por Computador . pp. 97–112. Archivado desde el original el 5 de marzo de 2005.
Modelos estadísticos
J Li y JZ Wang (2006). "Anotación computarizada de imágenes en tiempo real". Proc. ACM Multimedia . págs. 911–920.
JZ Wang y J Li (2002). "Indexación lingüística basada en el aprendizaje de imágenes con MHMM 2-D". Proc. ACM Multimedia . págs. 436–445.
Indexación lingüística automática de imágenes
J Li y JZ Wang (2008). "Anotación computarizada de imágenes en tiempo real". Transacciones IEEE sobre análisis de patrones e inteligencia artificial .
J Li y JZ Wang (2003). "Indexación lingüística automática de imágenes mediante un enfoque de modelado estadístico". Transacciones IEEE sobre análisis de patrones e inteligencia artificial . pp. 1075–1088.
Modelo de clúster de aspectos jerárquicos
K Barnard; DA Forsyth (2001). "Aprendizaje de la semántica de palabras e imágenes". Actas de la Conferencia Internacional sobre Visión por Computador . pp. 408–415. Archivado desde el original el 28 de septiembre de 2007.
Modelo de asignación de Dirichlet latente
D Blei; A Ng y M Jordan (2003). "Asignación de Dirichlet latente" (PDF) . Journal of Machine Learning Research . pp. 3:993–1022. Archivado desde el original (PDF) el 16 de marzo de 2005.
G Carneiro; AB Chan; P Moreno y N Vasconcelos (2006). "Aprendizaje supervisado de clases semánticas para la anotación y recuperación de imágenes" (PDF) . Transacciones IEEE sobre análisis de patrones e inteligencia artificial . págs. 394–410.
Similitud de textura
RW Picard y TP Minka (1995). "Visión de texturas para anotación". Sistemas multimedia .
Máquinas de vectores de soporte
C Cusano; G Ciocca y R Scettini (2004). Santini, Simone y Schettini, Raimondo (eds.). "Anotación de imágenes mediante SVM". Imágenes de Internet V. 5304 : 330–338. Código Bib : 2003SPIE.5304..330C. doi :10.1117/12.526746. S2CID 16246057.
Conjunto de árboles de decisión y subventanas aleatorias
R Maree; P Geurts; J Piater y L Wehenkel (2005). "Subventanas aleatorias para clasificación robusta de imágenes". Actas de la Conferencia Internacional IEEE sobre Visión artificial y reconocimiento de patrones . pp. 1:34–30.
Entropía máxima
J Jeon; R Manmatha (2004). "Uso de la máxima entropía para la anotación automática de imágenes" (PDF) . Conferencia internacional sobre recuperación de imágenes y vídeos (CIVR 2004) . pp. 24–32.
Modelos de relevancia
J Jeon; V Lavrenko y R Manmatha (2003). "Anotación y recuperación automática de imágenes mediante modelos de relevancia de medios cruzados" (PDF) . Actas de la Conferencia ACM SIGIR sobre investigación y desarrollo en recuperación de información . pp. 119–126.
Modelos de relevancia que utilizan funciones de densidad de probabilidad continua
V Lavrenko; R Manmatha y J Jeon (2003). "Un modelo para aprender la semántica de imágenes" (PDF) . Actas de la 16.ª Conferencia sobre avances en sistemas de procesamiento de información neuronal NIPS .
Modelo de lenguaje coherente
R Jin; JY Chai; L Si (2004). "Anotación automática de imágenes eficaz mediante un modelo de lenguaje coherente y aprendizaje activo" (PDF) . Actas de MM'04 .
Redes de inferencia
D Metzler y R Manmatha (2004). "Un enfoque de red de inferencia para la recuperación de imágenes" (PDF) . Actas de la Conferencia Internacional sobre Recuperación de Imágenes y Vídeos . pp. 42–50.
Distribución de Bernoulli múltiple
S Feng; R Manmatha y V Lavrenko (2004). "Múltiples modelos de relevancia de Bernoulli para anotación de imágenes y vídeos" (PDF) . Conferencia IEEE sobre visión artificial y reconocimiento de patrones . pp. 1002–1009.
Múltiples alternativas de diseño
JY Pan; HJ Yang; P Duygulu; C Faloutsos (2004). "Subtítulos automáticos de imágenes" (PDF) . Actas de la Conferencia Internacional sobre Multimedia y Exposición del IEEE de 2004 (ICME'04) . Archivado desde el original (PDF) el 9 de diciembre de 2004.
Subtítulos de imágenes
Quan Hoang Lam; Quang Duy Le; Kiet Van Nguyen; Ngan Luu-Thuy Nguyen (2020). "UIT-ViIC: un conjunto de datos para la primera evaluación sobre subtítulos de imágenes vietnamitas". Actas de la Conferencia Internacional de 2020 sobre Inteligencia Colectiva Computacional (ICCCI 2020) . arXiv : 2002.00175 . doi :10.1007/978-3-030-63007-2_57.
Anotación de escenas naturales
J Fan; Y Gao; H Luo; G Xu (2004). "Anotación automática de imágenes mediante el uso de objetos salientes sensibles a conceptos para la representación del contenido de imágenes". Actas de la 27.ª conferencia internacional anual sobre investigación y desarrollo en recuperación de información . págs. 361–368.
Filtros globales de bajo nivel relevantes
A Oliva y A Torralba (2001). "Modelado de la forma de la escena: una representación holística de la envolvente espacial" (PDF) . Revista Internacional de Visión por Computador . pp. 42:145–175.
Características de la imagen global y estimación de densidad no paramétrica
A Yavlinsky, E Schofield y S Rüger (2005). "Automated Image Annotation Using Global Features and Robust Nonparametric Density Estimation" (PDF) . Conferencia internacional sobre recuperación de imágenes y vídeos (CIVR, Singapur, julio de 2005) . Archivado desde el original (PDF) el 20 de diciembre de 2005.
Semántica del vídeo
N Vasconcelos y A Lippman (2001). "Modelos estadísticos de la estructura del vídeo para el análisis y caracterización de contenidos" (PDF) . IEEE Transactions on Image Processing . pp. 1–17.
Ilaria Bartolini; Marco Patella y Corrado Romani (2010). "Shiatsu: etiquetado automático jerárquico semántico de vídeos mediante segmentación mediante cortes". 3.er Taller internacional multimedia de la ACM sobre extracción automatizada de información en la producción de medios (AIEMPro10) .
Refinamiento de anotaciones de imágenes
Yohan Jin; Latifur Khan ; Lei Wang y Mamoun Awad (2005). "Anotaciones de imágenes mediante la combinación de múltiples evidencias y WordNet". 13.ª Conferencia Internacional Anual sobre Multimedia de la ACM (MM 05) . págs. 706–715.
Changhu Wang; Feng Jing; Lei Zhang y Hong-Jiang Zhang (2006). "Refinamiento de anotación de imágenes mediante recorrido aleatorio con reinicios". 14.ª Conferencia Internacional Anual sobre Multimedia de la ACM (MM 06) .
Changhu Wang; Feng Jing; Lei Zhang y Hong-Jiang Zhang (2007). "Refinamiento de anotación de imágenes basado en contenido". Conferencia IEEE sobre Visión artificial y reconocimiento de patrones (CVPR 07) . doi :10.1109/CVPR.2007.383221.
Ilaria Bartolini y Paolo Ciaccia (2007). "Imaginación: Aprovechamiento del análisis de enlaces para una anotación precisa de imágenes". Springer Adaptive Multimedia Retrieval . doi :10.1007/978-3-540-79860-6_3.
Ilaria Bartolini y Paolo Ciaccia (2010). "Anotación y búsqueda de imágenes multidimensionales basadas en palabras clave". 2º Taller internacional de la ACM sobre búsqueda de palabras clave en datos estructurados (KEYS 2010) .
Anotación automática de imágenes mediante un conjunto de descriptores visuales
Emre Akbas y Fatos Y. Vural (2007). "Anotación automática de imágenes mediante un conjunto de descriptores visuales". Conferencia Internacional sobre Visión por Computadora (CVPR) 2007, Taller sobre aplicaciones de aprendizaje semántico en multimedia . doi :10.1109/CVPR.2007.383484. hdl : 11511/16027 .
Una nueva base para la anotación de imágenes
Ameesh Makadia y Vladimir Pavlovic y Sanjiv Kumar (2008). "Una nueva base para la anotación de imágenes" (PDF) . Conferencia Europea sobre Visión por Computador (ECCV) .
Clasificación y anotación simultánea de imágenes
Chong Wang y David Blei y Li Fei-Fei (2009). "Clasificación y anotación simultánea de imágenes" (PDF) . Conferencia sobre visión artificial y reconocimiento de patrones (CVPR) .
TagProp: aprendizaje métrico discriminativo en modelos de vecinos más próximos para la anotación automática de imágenes
Matthieu Guillaumin y Thomas Mensink y Jakob Verbeek y Cordelia Schmid (2009). "TagProp: aprendizaje métrico discriminante en modelos de vecinos más cercanos para la anotación automática de imágenes" (PDF) . Conferencia Internacional sobre Visión Artificial (ICCV) .
Anotación de imágenes mediante aprendizaje métrico en vecindarios semánticos
Yashaswi Verma y CV Jawahar (2012). "Anotación de imágenes mediante aprendizaje métrico en vecindarios semánticos" (PDF) . Conferencia Europea sobre Visión por Computador (ECCV) . Archivado desde el original (PDF) el 2013-05-14 . Consultado el 2014-02-26 .
Anotación automática de imágenes mediante representaciones de aprendizaje profundo
Venkatesh N. Murthy y Subhransu Maji y R. Manmatha (2015). "Anotación automática de imágenes mediante representaciones de aprendizaje profundo" (PDF) . Conferencia internacional sobre multimedia (ICMR) .
Anotación holística de imágenes mediante regiones salientes e información de fondo de la imagen
Sarin, Supheakmungkol; Fahrmair, Michael; Wagner, Matthias y Kameyama, Wataru (2012). Aprovechamiento de características de las regiones salientes y de fondo para la anotación automática de imágenes. Journal of Information Processing. Vol. 20. págs. 250–266.
Anotación de imágenes médicas mediante redes bayesianas y aprendizaje activo
NB Marvasti y E. Yörük y B. Acar (2018). "Anotación de imágenes médicas asistida por computadora: resultados preliminares con lesiones hepáticas en TC". Revista IEEE de informática biomédica y de salud .