stringtranslate.com

Anotación automática de imágenes

Salida del software de "subtítulos densos" DenseCap, que analiza una fotografía de un hombre montado en un elefante

La anotación automática de imágenes (también conocida como etiquetado automático de imágenes o indexación lingüística ) es el proceso mediante el cual un sistema informático asigna automáticamente metadatos en forma de subtítulos o palabras clave a una imagen digital . Esta aplicación de técnicas de visión por computadora se utiliza en sistemas de recuperación de imágenes para organizar y localizar imágenes de interés de una base de datos .

Este método puede considerarse como un tipo de clasificación de imágenes de múltiples clases con una gran cantidad de clases, tan grande como el tamaño del vocabulario. Por lo general, las técnicas de aprendizaje automático utilizan el análisis de imágenes en forma de vectores de características extraídos y las palabras de anotación de entrenamiento para intentar aplicar anotaciones automáticamente a nuevas imágenes. Los primeros métodos aprendieron las correlaciones entre las características de la imagen y las anotaciones de entrenamiento, luego se desarrollaron técnicas utilizando la traducción automática para intentar traducir el vocabulario textual con el "vocabulario visual", o regiones agrupadas conocidas como manchas . El trabajo posterior a estos esfuerzos ha incluido enfoques de clasificación, modelos de relevancia, etc.

Las ventajas de la anotación automática de imágenes frente a la recuperación de imágenes basada en contenido (CBIR) son que el usuario puede especificar las consultas de forma más natural. [1] CBIR generalmente (en la actualidad) requiere que los usuarios busquen por conceptos de imagen como color y textura , o encuentren consultas de ejemplo. Ciertas características de la imagen en imágenes de ejemplo pueden anular el concepto en el que realmente se concentra el usuario. Los métodos tradicionales de recuperación de imágenes, como los utilizados por las bibliotecas, se han basado en imágenes anotadas manualmente, lo cual es costoso y requiere mucho tiempo, especialmente dadas las grandes bases de datos de imágenes que existen en constante crecimiento.

Ver también

Referencias

  1. ^ "Copia archivada" (PDF) . i.yz.yamagata-u.ac.jp . Archivado desde el original (PDF) el 8 de agosto de 2014 . Consultado el 13 de enero de 2022 .{{cite web}}: Mantenimiento CS1: copia archivada como título ( enlace )

Otras lecturas

Y Mori; H Takahashi y R Oka (1999). "Transformación de imagen en palabra basada en dividir y cuantificar vectorialmente imágenes con palabras". Actas del taller internacional sobre gestión de recuperación y almacenamiento inteligente multimedia . CiteSeerX  10.1.1.31.1704 .
P Duygulu; K Barnard; N de Fretias y D Forsyth (2002). "Reconocimiento de objetos como traducción automática: aprendizaje de un léxico para un vocabulario de imágenes fijas". Actas de la Conferencia europea sobre visión por computadora . págs. 97-112. Archivado desde el original el 5 de marzo de 2005.
J Li y JZ Wang (2006). "Anotación computarizada de imágenes en tiempo real". Proc. ACM Multimedia . págs. 911–920.
JZ Wang y J Li (2002). "Indización lingüística de imágenes basada en el aprendizaje con MHMM 2-D". Proc. ACM Multimedia . págs. 436–445.
J Li y JZ Wang (2008). "Anotación computarizada de imágenes en tiempo real". Transacciones IEEE sobre análisis de patrones e inteligencia artificial .
J Li y JZ Wang (2003). "Indización lingüística automática de imágenes mediante un enfoque de modelado estadístico". Transacciones IEEE sobre análisis de patrones e inteligencia artificial . págs. 1075-1088.
K Barnard; DA Forsyth (2001). "Aprendizaje de la semántica de palabras e imágenes". Actas de la Conferencia Internacional sobre Visión por Computadora . págs. 408–415. Archivado desde el original el 28 de septiembre de 2007.
D Blei; A Ng y M Jordan (2003). "Asignación latente de Dirichlet" (PDF) . Revista de investigación sobre aprendizaje automático . págs. 3:993–1022. Archivado desde el original (PDF) el 16 de marzo de 2005.
G Carneiro; AB Chan; P Moreno y N Vasconcelos (2006). "Aprendizaje supervisado de clases semánticas para anotación y recuperación de imágenes" (PDF) . Transacciones IEEE sobre análisis de patrones e inteligencia artificial . págs. 394–410.
RW Picard y TP Minka (1995). "Textura de visión para anotaciones". Sistemas Multimedia .
C Cusano; G Ciocca y R Scettini (2004). Santini, Simone y Schettini, Raimondo (eds.). "Anotación de imágenes mediante SVM". Imágenes de Internet V. 5304 : 330–338. Código Bib : 2003SPIE.5304..330C. doi :10.1117/12.526746. S2CID  16246057.
R Maree; P Geurts; J Piater y L Wehenkel (2005). "Subventanas aleatorias para una clasificación sólida de imágenes". Actas de la Conferencia Internacional IEEE sobre Visión por Computadora y Reconocimiento de Patrones . págs. 1:34–30.
J Jeon; R Manmatha (2004). "Uso de la máxima entropía para la anotación automática de imágenes" (PDF) . Conferencia Internacional sobre recuperación de imágenes y vídeos (CIVR 2004) . págs. 24-32.
J Jeon; V Lavrenko y R Manmatha (2003). "Anotación y recuperación automática de imágenes utilizando modelos de relevancia cross-media" (PDF) . Actas de la Conferencia ACM SIGIR sobre investigación y desarrollo en recuperación de información . págs. 119-126.
V Lavrenko; R Manmatha y J Jeon (2003). "Un modelo para aprender la semántica de imágenes" (PDF) . Actas de la 16ª Conferencia sobre avances en sistemas de procesamiento de información neuronal NIPS .
R Jin; JY Chai; L Si (2004). "Anotación automática eficaz de imágenes mediante un modelo de lenguaje coherente y aprendizaje activo" (PDF) . Actas de MM'04 .
D Metzler y R Manmatha (2004). "Un enfoque de red de inferencia para la recuperación de imágenes" (PDF) . Actas de la Conferencia Internacional sobre Recuperación de Imágenes y Vídeos . págs. 42–50.
S Feng; R. Manmatha y V. Lavrenko (2004). "Múltiples modelos de relevancia de Bernoulli para anotación de imágenes y vídeos" (PDF) . Conferencia IEEE sobre visión por computadora y reconocimiento de patrones . págs. 1002-1009.
JY Pan; HJ Yang; P Duygulu; C Faloutsos (2004). "Subtítulos automáticos de imágenes" (PDF) . Actas de la Conferencia Internacional IEEE 2004 sobre Multimedia y Exposición (ICME'04) . Archivado desde el original (PDF) el 9 de diciembre de 2004.
Quan Hoang Lam; Quang Duy Le; Kiet Van Nguyen; Ngan Luu-Thuy Nguyen (2020). "UIT-ViIC: un conjunto de datos para la primera evaluación sobre subtítulos de imágenes vietnamitas". Actas de la Conferencia Internacional de 2020 sobre Inteligencia Colectiva Computacional (ICCCI 2020) . arXiv : 2002.00175 . doi :10.1007/978-3-030-63007-2_57.
J Fan; Y Gao; H Luo; G Xu (2004). "Anotación automática de imágenes mediante el uso de objetos destacados sensibles a conceptos para la representación del contenido de la imagen". Actas de la 27ª conferencia internacional anual sobre investigación y desarrollo en recuperación de información . págs. 361–368.
Una Oliva y Una Torralba (2001). "Modelado de la forma de la escena: una representación holística de la envolvente espacial" (PDF) . Revista Internacional de Visión por Computadora . págs. 42:145–175.
A Yavlinsky, E Schofield y S Rüger (2005). "Anotación de imágenes automatizada utilizando funciones globales y una sólida estimación de densidad no paramétrica" ​​(PDF) . Conferencia Internacional sobre recuperación de imágenes y vídeos (CIVR, Singapur, julio de 2005) . Archivado desde el original (PDF) el 20 de diciembre de 2005.
N Vasconcelos y A Lippman (2001). "Modelos estadísticos de estructura de vídeo para análisis y caracterización de contenidos" (PDF) . Transacciones IEEE sobre procesamiento de imágenes . págs. 1-17.
Ilaria Bartolini; Marco Patella y Corrado Romani (2010). "Shiatsu: etiquetado automático jerárquico de vídeos basado en la semántica mediante segmentación mediante cortes". 3er Taller Multimedia Internacional ACM sobre Extracción Automatizada de Información en Producción de Medios (AIEMPro10) .
Yohan Jin; Latifur Khan ; Lei Wang y Mamoun Awad (2005). "Anotaciones de imágenes mediante la combinación de múltiples pruebas y wordNet". 13.ª Conferencia Internacional Anual de ACM sobre Multimedia (MM 05) . págs. 706–715.
Changhu Wang; Feng Jing; Lei Zhang y Hong-Jiang Zhang (2006). "Refinamiento de la anotación de imágenes mediante paseo aleatorio con reinicios". 14ª Conferencia Internacional Anual ACM sobre Multimedia (MM 06) .
Changhu Wang; Feng Jing; Lei Zhang y Hong-Jiang Zhang (2007). "Refinamiento de anotaciones de imágenes basadas en contenido". Conferencia IEEE sobre visión por computadora y reconocimiento de patrones (CVPR 07) . doi :10.1109/CVPR.2007.383221.
Ilaria Bartolini y Paolo Ciaccia (2007). "Imaginación: explotación del análisis de enlaces para una anotación de imágenes precisa". Recuperación multimedia adaptativa de Springer . doi :10.1007/978-3-540-79860-6_3.
Ilaria Bartolini y Paolo Ciaccia (2010). "Búsqueda y anotación de imágenes multidimensionales basadas en palabras clave". 2do Taller Internacional ACM sobre Búsqueda de Palabras Clave en Datos Estructurados (KEYS 2010) .
Emre Akbas y Fatos Y. Vural (2007). "Anotación automática de imágenes por conjunto de descriptores visuales". Internacional Conf. en Visión por Computador (CVPR) 2007, Taller sobre Aplicaciones de Aprendizaje Semántico en Multimedia . doi :10.1109/CVPR.2007.383484. hdl : 11511/16027 .
Ameesh Makadia, Vladimir Pavlovic y Sanjiv Kumar (2008). "Una nueva base para la anotación de imágenes" (PDF) . Conferencia Europea sobre Visión por Computador (ECCV) .

Clasificación y anotación de imágenes simultáneas

Chong Wang, David Blei y Li Fei-Fei (2009). "Clasificación y anotación de imágenes simultáneas" (PDF) . Conf. sobre visión por computadora y reconocimiento de patrones (CVPR) .
Matthieu Guillaumin, Thomas Mensink, Jakob Verbeek y Cordelia Schmid (2009). "TagProp: aprendizaje de métricas discriminativas en modelos de vecino más cercano para anotación automática de imágenes" (PDF) . Internacional Conf. sobre Visión por Computador (ICCV) .
Yashaswi Verma y CV Jawahar (2012). "Anotación de imágenes mediante aprendizaje métrico en barrios semánticos" (PDF) . Conferencia Europea sobre Visión por Computador (ECCV) . Archivado desde el original (PDF) el 14 de mayo de 2013 . Consultado el 26 de febrero de 2014 .
Venkatesh N. Murthy, Subhransu Maji y R. Manmatha (2015). "Anotación automática de imágenes mediante representaciones de aprendizaje profundo" (PDF) . Conferencia Internacional sobre Multimedia (ICMR) .
sarín, supheakmungkol; Fahrmair, Michael; Wagner, Matthias y Kameyama, Wataru (2012). Aprovechamiento de funciones de fondo y regiones destacadas para la anotación automática de imágenes. Revista de procesamiento de información. vol. 20. págs. 250–266.
NB Marvasti & E. Yörük y B. Acar (2018). "Anotación de imágenes médicas asistida por computadora: resultados preliminares con lesiones hepáticas en TC". Revista IEEE de Informática Biomédica y de Salud .