stringtranslate.com

Anotación automática de imágenes

Resultado del software de subtitulado denso DenseCap, que analiza una fotografía de un hombre montado en un elefante

La anotación automática de imágenes (también conocida como etiquetado automático de imágenes o indexación lingüística ) es el proceso mediante el cual un sistema informático asigna automáticamente metadatos en forma de subtítulos o palabras clave a una imagen digital . Esta aplicación de las técnicas de visión artificial se utiliza en sistemas de recuperación de imágenes para organizar y localizar imágenes de interés en una base de datos .

Este método puede considerarse un tipo de clasificación de imágenes multiclase con una gran cantidad de clases, tan grande como el tamaño del vocabulario. Por lo general, las técnicas de aprendizaje automático utilizan el análisis de imágenes en forma de vectores de características extraídos y las palabras de anotación de entrenamiento para intentar aplicar automáticamente anotaciones a nuevas imágenes. Los primeros métodos aprendieron las correlaciones entre las características de la imagen y las anotaciones de entrenamiento, luego se desarrollaron técnicas utilizando la traducción automática para intentar traducir el vocabulario textual con el "vocabulario visual" o regiones agrupadas conocidas como blobs . El trabajo posterior a estos esfuerzos ha incluido enfoques de clasificación, modelos de relevancia, etc.

Las ventajas de la anotación automática de imágenes frente a la recuperación de imágenes basada en contenido (CBIR) son que el usuario puede especificar las consultas de forma más natural. [1] En general, la CBIR (actualmente) requiere que los usuarios busquen por conceptos de imagen, como color y textura , o que encuentren consultas de ejemplo. Ciertas características de las imágenes de ejemplo pueden anular el concepto en el que realmente se centra el usuario. Los métodos tradicionales de recuperación de imágenes, como los utilizados por las bibliotecas, se han basado en imágenes anotadas manualmente, lo que es costoso y requiere mucho tiempo, especialmente dadas las grandes bases de datos de imágenes que existen y que crecen constantemente.

Véase también

Referencias

  1. ^ "Copia archivada" (PDF) . i.yz.yamagata-u.ac.jp . Archivado desde el original (PDF) el 8 de agosto de 2014 . Consultado el 13 de enero de 2022 .{{cite web}}: CS1 maint: copia archivada como título ( enlace )

Lectura adicional

Y Mori; H Takahashi y R Oka (1999). "Transformación de imagen a palabra basada en la división y cuantificación vectorial de imágenes con palabras". Actas del Taller internacional sobre gestión inteligente de almacenamiento y recuperación multimedia . CiteSeerX  10.1.1.31.1704 .
P Duygulu; K Barnard; N de Fretias y D Forsyth (2002). "Reconocimiento de objetos como traducción automática: aprendizaje de un léxico para un vocabulario de imágenes fijas". Actas de la Conferencia Europea sobre Visión por Computador . pp. 97–112. Archivado desde el original el 5 de marzo de 2005.
J Li y JZ Wang (2006). "Anotación computarizada de imágenes en tiempo real". Proc. ACM Multimedia . págs. 911–920.
JZ Wang y J Li (2002). "Indexación lingüística basada en el aprendizaje de imágenes con MHMM 2-D". Proc. ACM Multimedia . págs. 436–445.
J Li y JZ Wang (2008). "Anotación computarizada de imágenes en tiempo real". Transacciones IEEE sobre análisis de patrones e inteligencia artificial .
J Li y JZ Wang (2003). "Indexación lingüística automática de imágenes mediante un enfoque de modelado estadístico". Transacciones IEEE sobre análisis de patrones e inteligencia artificial . pp. 1075–1088.
K Barnard; DA Forsyth (2001). "Aprendizaje de la semántica de palabras e imágenes". Actas de la Conferencia Internacional sobre Visión por Computador . pp. 408–415. Archivado desde el original el 28 de septiembre de 2007.
D Blei; A Ng y M Jordan (2003). "Asignación de Dirichlet latente" (PDF) . Journal of Machine Learning Research . pp. 3:993–1022. Archivado desde el original (PDF) el 16 de marzo de 2005.
G Carneiro; AB Chan; P Moreno y N Vasconcelos (2006). "Aprendizaje supervisado de clases semánticas para la anotación y recuperación de imágenes" (PDF) . Transacciones IEEE sobre análisis de patrones e inteligencia artificial . págs. 394–410.
RW Picard y TP Minka (1995). "Visión de texturas para anotación". Sistemas multimedia .
C Cusano; G Ciocca y R Scettini (2004). Santini, Simone y Schettini, Raimondo (eds.). "Anotación de imágenes mediante SVM". Imágenes de Internet V. 5304 : 330–338. Código Bib : 2003SPIE.5304..330C. doi :10.1117/12.526746. S2CID  16246057.
R Maree; P Geurts; J Piater y L Wehenkel (2005). "Subventanas aleatorias para clasificación robusta de imágenes". Actas de la Conferencia Internacional IEEE sobre Visión artificial y reconocimiento de patrones . pp. 1:34–30.
J Jeon; R Manmatha (2004). "Uso de la máxima entropía para la anotación automática de imágenes" (PDF) . Conferencia internacional sobre recuperación de imágenes y vídeos (CIVR 2004) . pp. 24–32.
J Jeon; V Lavrenko y R Manmatha (2003). "Anotación y recuperación automática de imágenes mediante modelos de relevancia de medios cruzados" (PDF) . Actas de la Conferencia ACM SIGIR sobre investigación y desarrollo en recuperación de información . pp. 119–126.
V Lavrenko; R Manmatha y J Jeon (2003). "Un modelo para aprender la semántica de imágenes" (PDF) . Actas de la 16.ª Conferencia sobre avances en sistemas de procesamiento de información neuronal NIPS .
R Jin; JY Chai; L Si (2004). "Anotación automática de imágenes eficaz mediante un modelo de lenguaje coherente y aprendizaje activo" (PDF) . Actas de MM'04 .
D Metzler y R Manmatha (2004). "Un enfoque de red de inferencia para la recuperación de imágenes" (PDF) . Actas de la Conferencia Internacional sobre Recuperación de Imágenes y Vídeos . pp. 42–50.
S Feng; R Manmatha y V Lavrenko (2004). "Múltiples modelos de relevancia de Bernoulli para anotación de imágenes y vídeos" (PDF) . Conferencia IEEE sobre visión artificial y reconocimiento de patrones . pp. 1002–1009.
JY Pan; HJ Yang; P Duygulu; C Faloutsos (2004). "Subtítulos automáticos de imágenes" (PDF) . Actas de la Conferencia Internacional sobre Multimedia y Exposición del IEEE de 2004 (ICME'04) . Archivado desde el original (PDF) el 9 de diciembre de 2004.
Quan Hoang Lam; Quang Duy Le; Kiet Van Nguyen; Ngan Luu-Thuy Nguyen (2020). "UIT-ViIC: un conjunto de datos para la primera evaluación sobre subtítulos de imágenes vietnamitas". Actas de la Conferencia Internacional de 2020 sobre Inteligencia Colectiva Computacional (ICCCI 2020) . arXiv : 2002.00175 . doi :10.1007/978-3-030-63007-2_57.
J Fan; Y Gao; H Luo; G Xu (2004). "Anotación automática de imágenes mediante el uso de objetos salientes sensibles a conceptos para la representación del contenido de imágenes". Actas de la 27.ª conferencia internacional anual sobre investigación y desarrollo en recuperación de información . págs. 361–368.
A Oliva y A Torralba (2001). "Modelado de la forma de la escena: una representación holística de la envolvente espacial" (PDF) . Revista Internacional de Visión por Computador . pp. 42:145–175.
A Yavlinsky, E Schofield y S Rüger (2005). "Automated Image Annotation Using Global Features and Robust Nonparametric Density Estimation" (PDF) . Conferencia internacional sobre recuperación de imágenes y vídeos (CIVR, Singapur, julio de 2005) . Archivado desde el original (PDF) el 20 de diciembre de 2005.
N Vasconcelos y A Lippman (2001). "Modelos estadísticos de la estructura del vídeo para el análisis y caracterización de contenidos" (PDF) . IEEE Transactions on Image Processing . pp. 1–17.
Ilaria Bartolini; Marco Patella y Corrado Romani (2010). "Shiatsu: etiquetado automático jerárquico semántico de vídeos mediante segmentación mediante cortes". 3.er Taller internacional multimedia de la ACM sobre extracción automatizada de información en la producción de medios (AIEMPro10) .
Yohan Jin; Latifur Khan ; Lei Wang y Mamoun Awad (2005). "Anotaciones de imágenes mediante la combinación de múltiples evidencias y WordNet". 13.ª Conferencia Internacional Anual sobre Multimedia de la ACM (MM 05) . págs. 706–715.
Changhu Wang; Feng Jing; Lei Zhang y Hong-Jiang Zhang (2006). "Refinamiento de anotación de imágenes mediante recorrido aleatorio con reinicios". 14.ª Conferencia Internacional Anual sobre Multimedia de la ACM (MM 06) .
Changhu Wang; Feng Jing; Lei Zhang y Hong-Jiang Zhang (2007). "Refinamiento de anotación de imágenes basado en contenido". Conferencia IEEE sobre Visión artificial y reconocimiento de patrones (CVPR 07) . doi :10.1109/CVPR.2007.383221.
Ilaria Bartolini y Paolo Ciaccia (2007). "Imaginación: Aprovechamiento del análisis de enlaces para una anotación precisa de imágenes". Springer Adaptive Multimedia Retrieval . doi :10.1007/978-3-540-79860-6_3.
Ilaria Bartolini y Paolo Ciaccia (2010). "Anotación y búsqueda de imágenes multidimensionales basadas en palabras clave". 2º Taller internacional de la ACM sobre búsqueda de palabras clave en datos estructurados (KEYS 2010) .
Emre Akbas y Fatos Y. Vural (2007). "Anotación automática de imágenes mediante un conjunto de descriptores visuales". Conferencia Internacional sobre Visión por Computadora (CVPR) 2007, Taller sobre aplicaciones de aprendizaje semántico en multimedia . doi :10.1109/CVPR.2007.383484. hdl : 11511/16027 .
Ameesh Makadia y Vladimir Pavlovic y Sanjiv Kumar (2008). "Una nueva base para la anotación de imágenes" (PDF) . Conferencia Europea sobre Visión por Computador (ECCV) .

Clasificación y anotación simultánea de imágenes

Chong Wang y David Blei y Li Fei-Fei (2009). "Clasificación y anotación simultánea de imágenes" (PDF) . Conferencia sobre visión artificial y reconocimiento de patrones (CVPR) .
Matthieu Guillaumin y Thomas Mensink y Jakob Verbeek y Cordelia Schmid (2009). "TagProp: aprendizaje métrico discriminante en modelos de vecinos más cercanos para la anotación automática de imágenes" (PDF) . Conferencia Internacional sobre Visión Artificial (ICCV) .
Yashaswi Verma y CV Jawahar (2012). "Anotación de imágenes mediante aprendizaje métrico en vecindarios semánticos" (PDF) . Conferencia Europea sobre Visión por Computador (ECCV) . Archivado desde el original (PDF) el 2013-05-14 . Consultado el 2014-02-26 .
Venkatesh N. Murthy y Subhransu Maji y R. Manmatha (2015). "Anotación automática de imágenes mediante representaciones de aprendizaje profundo" (PDF) . Conferencia internacional sobre multimedia (ICMR) .
Sarin, Supheakmungkol; Fahrmair, Michael; Wagner, Matthias y Kameyama, Wataru (2012). Aprovechamiento de características de las regiones salientes y de fondo para la anotación automática de imágenes. Journal of Information Processing. Vol. 20. págs. 250–266.
NB Marvasti y E. Yörük y B. Acar (2018). "Anotación de imágenes médicas asistida por computadora: resultados preliminares con lesiones hepáticas en TC". Revista IEEE de informática biomédica y de salud .