stringtranslate.com

Recuperación de imágenes basada en contenido

Esquema general de recuperación de imágenes basada en contenido

La recuperación de imágenes basada en contenido , también conocida como consulta por contenido de imagen ( QBIC ) y recuperación de información visual basada en contenido ( CBVIR ), es la aplicación de técnicas de visión artificial al problema de recuperación de imágenes , es decir, el problema de buscar imágenes digitales en grandes bases de datos (consulte esta encuesta [1] para obtener una descripción científica general del campo CBIR). La recuperación de imágenes basada en contenido se opone a los enfoques tradicionales basados ​​en conceptos (consulte Indexación de imágenes basada en conceptos ).

"Basada en contenido" significa que la búsqueda analiza el contenido de la imagen en lugar de los metadatos , como palabras clave, etiquetas o descripciones asociadas con la imagen. El término "contenido" en este contexto puede referirse a colores, formas, texturas o cualquier otra información que pueda derivarse de la propia imagen. La búsqueda basada en contenido es conveniente porque las búsquedas que se basan exclusivamente en metadatos dependen de la calidad y la integridad de las anotaciones .

Comparación con la búsqueda de metadatos

Una metabúsqueda de imágenes requiere que los humanos hayan anotado imágenes manualmente ingresando palabras clave o metadatos en una gran base de datos, lo que puede llevar mucho tiempo y puede no capturar las palabras clave deseadas para describir la imagen. La evaluación de la efectividad de la búsqueda de imágenes por palabras clave es subjetiva y no ha sido bien definida. En el mismo sentido, los sistemas CBIR tienen desafíos similares para definir el éxito. [2] "Las palabras clave también limitan el alcance de las consultas al conjunto de criterios predeterminados". y "haber sido configurado" son menos confiables que usar el contenido en sí. [3]

Historia

El término "recuperación de imágenes basada en contenido" parece haberse originado en 1992, cuando fue utilizado por el ingeniero del Laboratorio Electrotécnico Japonés Toshikazu Kato para describir experimentos de recuperación automática de imágenes de una base de datos, basándose en los colores y formas presentes. [2] [4] Desde entonces, el término se ha utilizado para describir el proceso de recuperación de imágenes deseadas de una gran colección sobre la base de características sintácticas de la imagen. Las técnicas, herramientas y algoritmos que se utilizan se originan en campos como la estadística, el reconocimiento de patrones, el procesamiento de señales y la visión artificial. [1]

.mw-parser-output .vanchor>:target~.vanchor-text{background-color:#b1d2ff}@media screen{html.skin-theme-clientpref-night .mw-parser-output .vanchor>:target~.vanchor-text{background-color:#0f4dc9}}@media screen and (prefers-color-scheme:dark){html.skin-theme-clientpref-os .mw-parser-output .vanchor>:target~.vanchor-text{background-color:#0f4dc9}}CIQB- Consulta por contenido de imagen

El primer sistema CBIR comercial fue desarrollado por IBM y se llamó QBIC ( Consulta por contenido de imágenes ). [ 5] [6] Los enfoques recientes basados ​​en redes y gráficos han presentado una alternativa simple y atractiva a los métodos existentes. [7]

Si bien el almacenamiento de múltiples imágenes como parte de una sola entidad precedió al término BLOB ( B inary Large Object ), [ 8] la capacidad de buscar completamente por contenido, en lugar de por descripción, tuvo que esperar a QBIC de IBM. [3]

VisualRank

VisualRank es un sistema para buscar y clasificar imágenes mediante el análisis y la comparación de su contenido, en lugar de buscar nombres de imágenes, enlaces web u otro texto. Los científicos de Google hicieron público su trabajo sobre VisualRank en un artículo que describe la aplicación de PageRank a la búsqueda de imágenes de Google en la Conferencia Internacional World Wide Web celebrada en Pekín en 2008.

[9]

Progreso técnico

El interés en CBIR ha crecido debido a las limitaciones inherentes a los sistemas basados ​​en metadatos, así como a la amplia gama de posibles usos para la recuperación eficiente de imágenes. La información textual sobre imágenes se puede buscar fácilmente utilizando la tecnología existente, pero esto requiere que los humanos describan manualmente cada imagen en la base de datos. Esto puede ser poco práctico para bases de datos muy grandes o para imágenes que se generan automáticamente, por ejemplo, las de cámaras de vigilancia . También es posible pasar por alto imágenes que utilizan diferentes sinónimos en sus descripciones. Los sistemas basados ​​en la categorización de imágenes en clases semánticas como "gato" como una subclase de "animal" pueden evitar el problema de la categorización errónea, pero requerirán un mayor esfuerzo por parte del usuario para encontrar imágenes que podrían ser "gatos", pero solo están clasificadas como un "animal". Se han desarrollado muchos estándares para categorizar imágenes, pero todos enfrentan problemas de escala y categorización errónea. [2]

Los sistemas CBIR iniciales se desarrollaron para buscar bases de datos basadas en propiedades de color, textura y forma de imágenes. Después de que se desarrollaron estos sistemas, se hizo evidente la necesidad de interfaces fáciles de usar. Por lo tanto, los esfuerzos en el campo CBIR comenzaron a incluir un diseño centrado en el ser humano que intentara satisfacer las necesidades del usuario que realiza la búsqueda. Esto generalmente significa la inclusión de: métodos de consulta que puedan permitir semántica descriptiva, consultas que puedan involucrar comentarios del usuario, sistemas que puedan incluir aprendizaje automático y sistemas que puedan comprender los niveles de satisfacción del usuario. [1]

Técnicas

Se han desarrollado muchos sistemas CBIR, pero a fecha de 2006 , el problema de recuperar imágenes en función de su contenido de píxeles sigue en gran medida sin resolverse. [1] [ necesita actualización ]

Diferentes técnicas de consulta e implementaciones de CBIR hacen uso de diferentes tipos de consultas de usuario.

Consulta por ejemplo

QBE ( Query By Example ) es una técnica de consulta [ 10] que implica proporcionar al sistema CBIR una imagen de ejemplo sobre la que luego basará su búsqueda. Los algoritmos de búsqueda subyacentes pueden variar según la aplicación, pero las imágenes resultantes deben compartir elementos comunes con el ejemplo proporcionado. [11]

Las opciones para proporcionar imágenes de ejemplo al sistema incluyen:

Esta técnica de consulta elimina las dificultades que pueden surgir al intentar describir imágenes con palabras.

Recuperación semántica

La recuperación semántica comienza cuando un usuario realiza una solicitud como "encontrar imágenes de Abraham Lincoln". Este tipo de tarea abierta es muy difícil de realizar para las computadoras: Lincoln puede no estar siempre frente a la cámara o en la misma pose . Por lo tanto, muchos sistemas CBIR generalmente utilizan características de nivel inferior como textura, color y forma. Estas características se utilizan en combinación con interfaces que permiten una entrada más sencilla de los criterios o con bases de datos que ya han sido entrenadas para hacer coincidir características (como rostros, huellas dactilares o coincidencia de formas). Sin embargo, en general, la recuperación de imágenes requiere retroalimentación humana para identificar conceptos de nivel superior. [6]

Retroalimentación de relevancia (interacción humana)

La combinación de las técnicas de búsqueda CBIR disponibles con la amplia gama de usuarios potenciales y sus intenciones puede ser una tarea difícil. Un aspecto del éxito de CBIR depende enteramente de la capacidad de comprender la intención del usuario. [12] Los sistemas CBIR pueden hacer uso de la retroalimentación de relevancia , donde el usuario refina progresivamente los resultados de la búsqueda marcando las imágenes en los resultados como "relevantes", "no relevantes" o "neutrales" para la consulta de búsqueda, y luego repitiendo la búsqueda con la nueva información. Se han desarrollado ejemplos de este tipo de interfaz. [13]

Aprendizaje iterativo/automático

El aprendizaje automático y la aplicación de técnicas iterativas son cada vez más comunes en CBIR. [14]

Otros métodos de consulta

Otros métodos de consulta incluyen la exploración de imágenes de ejemplo, la navegación por categorías personalizadas/jerárquicas, la consulta por región de la imagen (en lugar de por toda la imagen), la consulta por múltiples imágenes de ejemplo, la consulta por boceto visual, la consulta por especificación directa de características de la imagen y consultas multimodales (por ejemplo, combinando tacto, voz, etc.) [15].

Comparación de contenidos mediante medidas de distancia entre imágenes

El método más común para comparar dos imágenes en la recuperación de imágenes basada en contenido (normalmente una imagen de ejemplo y una imagen de la base de datos) es utilizar una medida de distancia de imagen. Una medida de distancia de imagen compara la similitud de dos imágenes en varias dimensiones, como color, textura, forma y otras. Por ejemplo, una distancia de 0 significa una coincidencia exacta con la consulta, con respecto a las dimensiones que se consideraron. Como se puede intuir, un valor mayor que 0 indica varios grados de similitud entre las imágenes. Los resultados de la búsqueda se pueden ordenar en función de su distancia a la imagen consultada. [11] Se han desarrollado muchas medidas de distancia de imagen (modelos de similitud). [16]

Color

El cálculo de medidas de distancia basadas en la similitud de colores se logra calculando un histograma de color para cada imagen que identifica la proporción de píxeles dentro de una imagen que contienen valores específicos. [2] Examinar imágenes en función de los colores que contienen es una de las técnicas más utilizadas porque se puede realizar sin tener en cuenta el tamaño o la orientación de la imagen. [6] Sin embargo, la investigación también ha intentado segmentar la proporción de color por región y por relación espacial entre varias regiones de color. [15]

Textura

Las medidas de textura buscan patrones visuales en imágenes y cómo se definen espacialmente. Las texturas se representan mediante texeles que luego se colocan en una serie de conjuntos, según la cantidad de texturas que se detecten en la imagen. Estos conjuntos no solo definen la textura, sino también dónde se ubica la textura en la imagen. [11]

La textura es un concepto difícil de representar. La identificación de texturas específicas en una imagen se logra principalmente modelando la textura como una variación de nivel de gris bidimensional. El brillo relativo de pares de píxeles se calcula de manera que se pueda estimar el grado de contraste, regularidad, aspereza y direccionalidad. [6] [17] El problema está en identificar patrones de variación de copíxeles y asociarlos con clases particulares de texturas como sedosa o rugosa .

Otros métodos de clasificación de texturas incluyen:

Forma

La forma no se refiere a la forma de una imagen, sino a la forma de una región particular que se busca. Las formas a menudo se determinan primero aplicando segmentación o detección de bordes a una imagen. Otros métodos utilizan filtros de forma para identificar formas dadas de una imagen. [18] Los descriptores de forma también pueden necesitar ser invariables a la traslación, rotación y escala. [6]

Algunos descriptores de forma incluyen: [6]

Vulnerabilidades, ataques y defensas

Al igual que otras tareas en la visión artificial, como el reconocimiento y la detección, los algoritmos de recuperación basados ​​en redes neuronales recientes son susceptibles a ataques adversarios , tanto a candidatos como a consultas. [19] Se ha demostrado que la clasificación recuperada podría alterarse drásticamente con solo pequeñas perturbaciones imperceptibles para los seres humanos. Además, también son posibles ejemplos adversarios transferibles y agnósticos del modelo, lo que permite ataques adversarios de caja negra en sistemas de clasificación profunda sin necesidad de acceder a sus implementaciones subyacentes. [19] [20]

Por el contrario, la resistencia a tales ataques se puede mejorar mediante defensas adversarias como la defensa Madry. [21]

Evaluación de recuperación de imágenes

Las medidas de recuperación de imágenes se pueden definir en términos de precisión y recuperación . Sin embargo, se están considerando otros métodos. [22]

Recuperación de imágenes en el sistema CBIR simultáneamente mediante diferentes técnicas

Una imagen se recupera en un sistema CBIR adoptando varias técnicas simultáneamente, como la integración de indexación de grupos de píxeles, la intersección de histogramas y los métodos de transformación wavelet discreta. [23]

Aplicaciones

Los posibles usos del CBIR incluyen: [2]

Los sistemas comerciales que se han desarrollado incluyen: [2]

Los sistemas experimentales incluyen: [2]

Véase también

Referencias

  1. ^ abcd Recuperación de información multimedia basada en contenido: estado del arte y desafíos (Fuente original, 404'd)Recuperación de información multimedia basada en contenido: estado del arte y desafíos Archivado el 28 de septiembre de 2007 en Wayback Machine , Michael Lew , et al., ACM Transactions on Multimedia Computing, Communications, and Applications , págs. 1–19, 2006.
  2. ^ abcdefg Eakins, John; Graham, Margaret. "Recuperación de imágenes basada en contenido". Universidad de Northumbria en Newcastle. Archivado desde el original el 5 de febrero de 2012. Consultado el 10 de marzo de 2014 .
  3. ^ ab Julie Anderson (29 de abril de 1996). "Search Images / Object Design Inc - Bargain of the year Stock Discussion Forums (6 de agosto de 1996)". Information Week (en línea, reimpreso en Stock Discussion Forums de Silicon Investor (6 de agosto de 1996) . p. 69 (IW). En la DB Expo de San Francisco a principios de este mes...[ enlace muerto permanente ]
  4. ^ Kato, Toshikazu (abril de 1992). Jamberdino, Albert A.; Niblack, Carlton W. (eds.). "Arquitectura de base de datos para recuperación de imágenes basada en contenido". Sistemas de almacenamiento y recuperación de imágenes . 1662 . Sociedad Internacional de Óptica y Fotónica: 112–123. Bibcode :1992SPIE.1662..112K. doi :10.1117/12.58497. S2CID  14342247.
  5. ^ Flickner, M.; Sawhney, H.; Niblack, W.; Ashley, J.; Qian Huang; Dom, B.; Gorkani, M.; Hafner, J.; Lee, D.; Petkovic, D.; Steele, D.; Yanker, P. (1995). "Consulta por contenido de imagen y vídeo: el sistema QBIC". Computer . 28 (9): 23–32. doi :10.1109/2.410146. Resumen: La investigación sobre formas de ampliar y mejorar los métodos de consulta para bases de datos de imágenes está muy extendida. Hemos desarrollado el sistema QBIC (Consulta por contenido de imagen) ...
  6. ^ abcdef Rui, Yong; Huang, Thomas S.; Chang, Shih-Fu (1999). "Recuperación de imágenes: técnicas actuales, direcciones prometedoras y cuestiones abiertas". Revista de comunicación visual y representación de imágenes . 10 : 39–62. CiteSeerX 10.1.1.32.7819 . doi :10.1006/jvci.1999.0413. S2CID  2910032. [ enlace muerto permanente ]
  7. ^ Banerjee, SJ; et al. (2015). "Uso de redes complejas para la recuperación de información y el diagnóstico en imágenes multidimensionales". Scientific Reports . 5 : 17271. arXiv : 1506.02602 . Bibcode :2015NatSR...517271B. doi :10.1038/srep17271. PMC 4667282 . PMID  26626047. 
  8. ^ "La verdadera historia de los BLOB". Archivado desde el original el 23 de julio de 2011.
  9. ^ Yushi Jing y Baluja, S. (2008). "VisualRank: aplicación de PageRank a la búsqueda de imágenes a gran escala". IEEE Transactions on Pattern Analysis and Machine Intelligence . 30 (11): 1877–1890. CiteSeerX 10.1.1.309.741 . doi :10.1109/TPAMI.2008.121. ISSN  0162-8828. PMID  18787237. S2CID  10545157. .
  10. ^ "Consulta por ejemplo". IBM.com KnowledgeCenter . QBE es un lenguaje para realizar consultas...
  11. ^ abcd Shapiro, Linda ; George Stockman (2001). Visión artificial . Upper Saddle River, Nueva Jersey: Prentice Hall. ISBN 978-0-13-030796-5.
  12. ^ Datta, Ritendra; Dhiraj Joshi; Jia Li ; James Z. Wang (2008). "Recuperación de imágenes: ideas, influencias y tendencias de la nueva era". Encuestas de computación de ACM . 40 (2): 1–60. doi :10.1145/1348246.1348248. S2CID  7060187.
  13. ^ ab Bird, CL; PJ Elliott; E. Griffiths (1996). "Interfaces de usuario para la recuperación de imágenes basada en contenido". Coloquio IEE sobre bases de datos de imágenes inteligentes . IET. doi :10.1049/ic:19960746.
  14. ^ Cardoso, Douglas; et al. "Técnica iterativa para la recuperación de imágenes basada en contenido utilizando múltiples conjuntos SVM" (PDF) . Universidad Federal de Paraná (Brasil) . Consultado el 11 de marzo de 2014 .
  15. ^ por Liam M. Mayron. "Recuperación de imágenes mediante la atención visual" (PDF) . Mayron.net . Consultado el 18 de octubre de 2012 .
  16. ^ Eidenberger, Horst (2011). "Comprensión fundamental de los medios", en prensa. ISBN 978-3-8423-7917-6
  17. ^ Tamura, Hideyuki; Mori, Shunji; Yamawaki, Takashi (1978). "Características texturales correspondientes a la percepción visual". IEEE Transactions on Systems, Man, and Cybernetics . 8 (6): 460, 473. doi :10.1109/tsmc.1978.4309999. S2CID  32197839.
  18. ^ Tushabe, F.; MHF Wilkinson (2008). "Recuperación de imágenes basada en contenido utilizando espectros de patrones de atributos 2D combinados". Avances en la recuperación de información multilingüe y multimodal (PDF) . Apuntes de clase en informática. Vol. 5152. págs. 554–561. doi :10.1007/978-3-540-85760-0_69. ISBN 978-3-540-85759-4.S2CID 18566543  .
  19. ^ ab Zhou, Mo; Niu, Zhenxing; Wang, Le; Zhang, Qilin; Hua, pandilla (2020). "Ataque y defensa de clasificación adversaria". arXiv : 2002.11293v2 [cs.CV].
  20. ^ Li, Jie; Ji, Rongrong; Liu, Hong; Hong, Xiaopeng; Gao, Yue; Tian, ​​Qi (2019). "Ataque de perturbación universal contra la recuperación de imágenes". págs. 4899–4908. arXiv : 1812.00552 [cs.CV].
  21. ^ Madry, Aleksander; Makelov, Aleksandar; Schmidt, Ludwig; Tsipras, Dimitris; Vladu, Adrian (19 de junio de 2017). "Hacia modelos de aprendizaje profundo resistentes a ataques adversarios". arXiv : 1706.06083v4 [stat.ML].
  22. ^ Deselaers, Thomas; Keysers, Daniel; Ney, Hermann (2007). "Características para la recuperación de imágenes: una comparación experimental" (PDF) . RWTH Aachen University . Consultado el 11 de marzo de 2014 .
  23. ^ Bhattacharjee, Pijush kanti (2010). "Integración de métodos de indexación de grupos de píxeles, intersección de histogramas y transformada wavelet discreta para un sistema de recuperación de imágenes basado en contenido de imágenes en color" (PDF) . Revista internacional de ingeniería informática y eléctrica [IJCEE], Singapur, vol. 2, n.º 2, págs. 345-352, 2010 .
  24. ^ Wang, James Ze; Jia Li ; Gio Wiederhold; Oscar Firschein (1998). "Sistema para la detección de imágenes objetables". Comunicaciones informáticas . 21 (15): 1355–1360. CiteSeerX 10.1.1.78.7689 . doi :10.1016/s0140-3664(98)00203-5. 

Lectura adicional

Artículos de investigación relevantes

Enlaces externos