stringtranslate.com

Recuperación de imágenes basada en contenido

Esquema general de recuperación de imágenes basada en contenido.

La recuperación de imágenes basada en contenido , también conocida como consulta por contenido de imagen ( QBIC ) y recuperación de información visual basada en contenido ( CBVIR ), es la aplicación de técnicas de visión por computadora al problema de recuperación de imágenes , es decir, el problema de buscar imágenes digitales. en grandes bases de datos (consulte esta encuesta [1] para obtener una descripción científica del campo CBIR). La recuperación de imágenes basada en contenido se opone a los enfoques tradicionales basados ​​en conceptos (consulte Indexación de imágenes basada en conceptos ).

"Basado en contenido" significa que la búsqueda analiza el contenido de la imagen en lugar de los metadatos como palabras clave, etiquetas o descripciones asociadas con la imagen. El término "contenido" en este contexto puede referirse a colores, formas, texturas o cualquier otra información que pueda derivarse de la imagen misma. CBIR es deseable porque las búsquedas que se basan exclusivamente en metadatos dependen de la calidad y la integridad de las anotaciones .

Comparación con la búsqueda de metadatos

Una metabúsqueda de imágenes requiere que los humanos hayan anotado las imágenes manualmente ingresando palabras clave o metadatos en una base de datos grande, lo que puede llevar mucho tiempo y es posible que no capture las palabras clave deseadas para describir la imagen. La evaluación de la eficacia de la búsqueda de imágenes por palabras clave es subjetiva y no ha sido bien definida. En el mismo sentido, los sistemas CBIR enfrentan desafíos similares a la hora de definir el éxito. [2] "Las palabras clave también limitan el alcance de las consultas al conjunto de criterios predeterminados". y "haber sido configurados" son menos confiables que usar el contenido en sí. [3]

Historia

El término "recuperación de imágenes basada en contenido" parece haberse originado en 1992 cuando fue utilizado por el ingeniero del Laboratorio Electrotécnico Japonés Toshikazu Kato para describir experimentos de recuperación automática de imágenes de una base de datos, basándose en los colores y formas presentes. [2] [4] Desde entonces, el término se ha utilizado para describir el proceso de recuperar imágenes deseadas de una gran colección sobre la base de características sintácticas de la imagen. Las técnicas, herramientas y algoritmos que se utilizan provienen de campos como la estadística, el reconocimiento de patrones, el procesamiento de señales y la visión por computadora. [1]

.mw-parser-output .vanchor>:target~.vanchor-text{background-color:#b1d2ff}QBIC - Consulta por contenido de imagen

El primer sistema CBIR comercial fue desarrollado por IBM y se llamó QBIC ( Query B y I mage C ontent) . [5] [6] Los enfoques recientes basados ​​en redes y gráficos han presentado una alternativa simple y atractiva a los métodos existentes. [7]

Si bien el almacenamiento de múltiples imágenes como parte de una sola entidad precedió al término BLOB ( B inary L arge OB ject), [8] la capacidad de buscar completamente por contenido, en lugar de por descripción, tuvo que esperar al QBIC de IBM. [3]

Rango visual

VisualRank es un sistema para buscar y clasificar imágenes analizando y comparando su contenido, en lugar de buscar nombres de imágenes, enlaces web u otro texto. Los científicos de Google hicieron público su trabajo sobre VisualRank en un artículo que describía la aplicación de PageRank a la búsqueda de imágenes de Google en la Conferencia Internacional World Wide Web celebrada en Beijing en 2008.

[9]

Progreso técnico

El interés en CBIR ha crecido debido a las limitaciones inherentes a los sistemas basados ​​en metadatos, así como a la amplia gama de usos posibles para la recuperación eficiente de imágenes. La información textual sobre imágenes se puede buscar fácilmente utilizando la tecnología existente, pero esto requiere que los humanos describan manualmente cada imagen en la base de datos. Esto puede resultar poco práctico para bases de datos muy grandes o para imágenes que se generan automáticamente, por ejemplo, las de cámaras de vigilancia . También es posible omitir imágenes que utilizan diferentes sinónimos en sus descripciones. Los sistemas basados ​​en categorizar imágenes en clases semánticas como "gato" como una subclase de "animal" pueden evitar el problema de la categorización errónea, pero requerirán más esfuerzo por parte del usuario para encontrar imágenes que podrían ser "gatos", pero que solo están clasificadas como " animal". Se han desarrollado muchos estándares para categorizar imágenes, pero todos aún enfrentan problemas de escala y categorización errónea. [2]

Los sistemas CBIR iniciales se desarrollaron para buscar bases de datos según las propiedades de color, textura y forma de la imagen. Después de que se desarrollaron estos sistemas, se hizo evidente la necesidad de interfaces fáciles de usar. Por lo tanto, los esfuerzos en el campo CBIR comenzaron a incluir un diseño centrado en el ser humano que intentaba satisfacer las necesidades del usuario que realiza la búsqueda. Por lo general, esto significa la inclusión de: métodos de consulta que pueden permitir una semántica descriptiva, consultas que pueden involucrar comentarios de los usuarios, sistemas que pueden incluir aprendizaje automático y sistemas que pueden comprender los niveles de satisfacción del usuario. [1]

Técnicas

Se han desarrollado muchos sistemas CBIR, pero hasta 2006 , el problema de recuperar imágenes en función de su contenido de píxeles sigue en gran medida sin resolver. [1] [ necesita actualización ]

Diferentes técnicas de consulta e implementaciones de CBIR utilizan diferentes tipos de consultas de usuario.

Consulta por ejemplo

QBE ( Query By Example ) es una técnica de consulta [ 10] que implica proporcionar al sistema CBIR una imagen de ejemplo en la que luego basará su búsqueda . Los algoritmos de búsqueda subyacentes pueden variar según la aplicación, pero todas las imágenes de resultados deben compartir elementos comunes con el ejemplo proporcionado. [11]

Las opciones para proporcionar imágenes de ejemplo al sistema incluyen:

Esta técnica de consulta elimina las dificultades que pueden surgir al intentar describir imágenes con palabras.

Recuperación semántica

La recuperación semántica comienza cuando un usuario realiza una solicitud como "buscar fotografías de Abraham Lincoln". Este tipo de tarea abierta es muy difícil de realizar para las computadoras: es posible que Lincoln no siempre esté frente a la cámara o en la misma pose . Por lo tanto, muchos sistemas CBIR generalmente utilizan características de nivel inferior como textura, color y forma. Estas funciones se utilizan en combinación con interfaces que permiten una entrada más sencilla de los criterios o con bases de datos que ya han sido entrenadas para hacer coincidir características (como caras, huellas dactilares o coincidencia de formas). Sin embargo, en general, la recuperación de imágenes requiere retroalimentación humana para identificar conceptos de nivel superior. [6]

Comentarios de relevancia (interacción humana)

Combinar las técnicas de búsqueda CBIR disponibles con la amplia gama de usuarios potenciales y sus intenciones puede ser una tarea difícil. Un aspecto para que CBIR tenga éxito depende enteramente de la capacidad de comprender la intención del usuario. [12] Los sistemas CBIR pueden hacer uso de la retroalimentación de relevancia , donde el usuario refina progresivamente los resultados de la búsqueda marcando imágenes en los resultados como "relevantes", "no relevantes" o "neutrales" para la consulta de búsqueda, y luego repitiendo la búsqueda con la nueva información. Se han desarrollado ejemplos de este tipo de interfaz. [13]

Aprendizaje iterativo/automático

El aprendizaje automático y la aplicación de técnicas iterativas son cada vez más comunes en CBIR. [14]

Otros métodos de consulta

Otros métodos de consulta incluyen explorar, por ejemplo, imágenes, navegar por categorías personalizadas/jerárquicas, consultar por región de la imagen (en lugar de la imagen completa), consultar por múltiples imágenes de ejemplo, consultar por boceto visual, consultar por especificación directa de características de la imagen y consultas multimodales ( por ejemplo, combinar tacto, voz, etc.) [15]

Comparación de contenido utilizando medidas de distancia de imagen

El método más común para comparar dos imágenes en la recuperación de imágenes basada en contenido (normalmente una imagen de ejemplo y una imagen de la base de datos) es utilizar una medida de distancia de la imagen. Una medida de distancia de imagen compara la similitud de dos imágenes en varias dimensiones, como color, textura, forma y otras. Por ejemplo, una distancia de 0 significa una coincidencia exacta con la consulta, con respecto a las dimensiones que se consideraron. Como se puede deducir intuitivamente, un valor mayor que 0 indica varios grados de similitudes entre las imágenes. Luego, los resultados de la búsqueda se pueden ordenar según su distancia a la imagen consultada. [11] Se han desarrollado muchas medidas de distancia de la imagen (modelos de similitud). [dieciséis]

Color

El cálculo de medidas de distancia basadas en la similitud de color se logra calculando un histograma de color para cada imagen que identifica la proporción de píxeles dentro de una imagen que contiene valores específicos. [2] Examinar imágenes en función de los colores que contienen es una de las técnicas más utilizadas porque se puede completar sin tener en cuenta el tamaño ni la orientación de la imagen. [6] Sin embargo, la investigación también ha intentado segmentar la proporción de color por región y por relación espacial entre varias regiones de color. [15]

Textura

Las medidas de textura buscan patrones visuales en imágenes y cómo se definen espacialmente. Las texturas se representan mediante téxels que luego se colocan en varios conjuntos, dependiendo de cuántas texturas se detecten en la imagen. Estos conjuntos no solo definen la textura, sino también en qué parte de la imagen se ubica la textura. [11]

La textura es un concepto difícil de representar. La identificación de texturas específicas en una imagen se logra principalmente modelando la textura como una variación bidimensional del nivel de gris. El brillo relativo de pares de píxeles se calcula de manera que se pueda estimar el grado de contraste, regularidad, tosquedad y direccionalidad. [6] [17] El problema está en identificar patrones de variación de co-píxeles y asociarlos con clases particulares de texturas como sedosas o rugosas .

Otros métodos para clasificar texturas incluyen:

Forma

La forma no se refiere a la forma de una imagen sino a la forma de una región particular que se busca. Las formas a menudo se determinarán primero aplicando segmentación o detección de bordes a una imagen. Otros métodos utilizan filtros de formas para identificar formas determinadas de una imagen. [18] Es posible que los descriptores de forma también deban ser invariantes ante la traslación, la rotación y la escala. [6]

Algunos descriptores de formas incluyen: [6]

Vulnerabilidades, ataques y defensas.

Al igual que otras tareas en visión por computadora , como el reconocimiento y la detección, los algoritmos de recuperación basados ​​en redes neuronales recientes son susceptibles a ataques adversarios , tanto como ataques de candidato como de consulta. [19] Se ha demostrado que la clasificación recuperada podría alterarse drásticamente con sólo pequeñas perturbaciones imperceptibles para los seres humanos. Además, también son posibles ejemplos adversarios transferibles independientes del modelo, lo que permite ataques adversarios de caja negra en sistemas de alto rango sin requerir acceso a sus implementaciones subyacentes. [19] [20]

Por el contrario, la resistencia a tales ataques se puede mejorar mediante defensas adversarias como la defensa Madry. [21]

Evaluación de recuperación de imágenes

Las medidas de recuperación de imágenes se pueden definir en términos de precisión y recuperación . Sin embargo, se están considerando otros métodos. [22]

Recuperación de imágenes en sistema CBIR simultáneamente mediante diferentes técnicas.

Una imagen se recupera en el sistema CBIR adoptando varias técnicas simultáneamente, como la integración de la indexación de grupos de píxeles, la intersección de histogramas y los métodos de transformación de ondas discretas. [23]

Aplicaciones

Los usos potenciales de CBIR incluyen: [2]

Los sistemas comerciales que se han desarrollado incluyen: [2]

Los sistemas experimentales incluyen: [2]

Ver también

Referencias

  1. ^ abcd Recuperación de información multimedia basada en contenido: estado del arte y desafíos (fuente original, 404'd) Recuperación de información multimedia basada en contenido: estado del arte y desafíos Archivado el 28 de septiembre de 2007 en Wayback Machine , Michael Lew , et al., Transacciones ACM sobre informática, comunicaciones y aplicaciones multimedia , págs. 1-19, 2006.
  2. ^ abcdefgEakins , John; Graham, Margarita. "Recuperación de imágenes basada en contenido". Universidad de Northumbria en Newcastle. Archivado desde el original el 5 de febrero de 2012 . Consultado el 10 de marzo de 2014 .
  3. ^ ab Julie Anderson (29 de abril de 1996). "Search Images / Object Design Inc - Foros de discusión sobre acciones sobre la oferta del año (6 de agosto de 1996)". Information Week (en línea, reimpreso en los foros de discusión de acciones de Silicon Investor (6 de agosto de 1996) . P. 69 (IW). En DB Expo en San Francisco a principios de este mes...[ enlace muerto permanente ]
  4. ^ Kato, Toshikazu (abril de 1992). Jamberdino, Albert A.; Niblack, Carlton W. (eds.). "Arquitectura de base de datos para la recuperación de imágenes basada en contenido". Sistemas de almacenamiento y recuperación de imágenes . Sociedad Internacional de Óptica y Fotónica. 1662 : 112-123. Código bibliográfico : 1992SPIE.1662..112K. doi : 10.1117/12.58497. S2CID  14342247.
  5. ^ Flickner, M.; Sawhney, H.; Niblack, W.; Ashley, J.; Qian Huang; Dom, B.; Gorkani, M.; Hafner, J.; Lee, D.; Petkovic, D.; Steele, D.; Yanker, P. (1995). "Consulta por contenido de imagen y vídeo: el sistema QBIC". Computadora . 28 (9): 23–32. doi :10.1109/2.410146. Resumen: La investigación sobre formas de ampliar y mejorar los métodos de consulta para bases de datos de imágenes está muy extendida. Hemos desarrollado el QBIC (Query by Image Content)...
  6. ^ abcdef Rui, Yong; Huang, Thomas S.; Chang, Shih-Fu (1999). "Recuperación de imágenes: técnicas actuales, direcciones prometedoras y cuestiones abiertas". Revista de Comunicación Visual y Representación de Imágenes . 10 : 39–62. CiteSeerX 10.1.1.32.7819 . doi :10.1006/jvci.1999.0413. S2CID  2910032. [ enlace muerto permanente ]
  7. ^ Banerjee, SJ; et al. (2015). "Uso de redes complejas para la recuperación de información y el diagnóstico en imágenes multidimensionales". Informes científicos . 5 : 17271. arXiv : 1506.02602 . Código Bib : 2015NatSR...517271B. doi :10.1038/srep17271. PMC 4667282 . PMID  26626047. 
  8. ^ "La verdadera historia de los BLOB". Archivado desde el original el 23 de julio de 2011.
  9. ^ Yushi Jing y Baluja, S. (2008). "VisualRank: aplicación de PageRank a la búsqueda de imágenes a gran escala". Transacciones IEEE sobre análisis de patrones e inteligencia artificial . 30 (11): 1877–1890. CiteSeerX 10.1.1.309.741 . doi :10.1109/TPAMI.2008.121. ISSN  0162-8828. PMID  18787237. S2CID  10545157. .
  10. ^ "Consulta por ejemplo". Centro de conocimiento de IBM.com . QBE es un lenguaje para realizar consultas...
  11. ^ abcd Shapiro, Linda ; George Stockman (2001). Visión por computador . Upper Saddle River, Nueva Jersey: Prentice Hall. ISBN 978-0-13-030796-5.
  12. ^ Datta, Ritendra; Dhiraj Joshi; Jia Li ; James Z. Wang (2008). "Recuperación de imágenes: ideas, influencias y tendencias de la nueva era". Encuestas de Computación ACM . 40 (2): 1–60. doi :10.1145/1348246.1348248. S2CID  7060187.
  13. ^ ab Pájaro, CL; PJ Elliott; E. Griffiths (1996). "Interfaces de usuario para la recuperación de imágenes basadas en contenido". Coloquio IEE sobre bases de datos de imágenes inteligentes . IET. doi :10.1049/ic:19960746.
  14. ^ Cardoso, Douglas; et al. "Técnica iterativa para la recuperación de imágenes basada en contenido utilizando múltiples conjuntos SVM" (PDF) . Universidad Federal de Paraná (Brasil) . Consultado el 11 de marzo de 2014 .
  15. ^ ab Liam M. Mayron. "Recuperación de imágenes mediante atención visual" (PDF) . Mayron.net . Consultado el 18 de octubre de 2012 .
  16. ^ Eidenberger, Horst (2011). "Comprensión fundamental de los medios", en prensa. ISBN 978-3-8423-7917-6
  17. ^ Tamura, Hideyuki; Mori, Shunji; Yamawaki, Takashi (1978). "Características texturales correspondientes a la percepción visual". Transacciones IEEE sobre sistemas, hombre y cibernética . 8 (6): 460, 473. doi :10.1109/tsmc.1978.4309999. S2CID  32197839.
  18. ^ Tushabe, F.; MHF Wilkinson (2008). "Recuperación de imágenes basada en contenido mediante espectros de patrones de atributos 2D combinados". Avances en la recuperación de información multilingüe y multimodal (PDF) . Apuntes de conferencias sobre informática. vol. 5152, págs. 554–561. doi :10.1007/978-3-540-85760-0_69. ISBN 978-3-540-85759-4. S2CID  18566543.
  19. ^ ab Zhou, Mo; Niu, Zhenxing; Wang, Le; Zhang, Qilin; Hua, pandilla (2020). "Ataque y defensa de clasificación adversaria". arXiv : 2002.11293v2 [cs.CV].
  20. ^ Li, Jie; Ji, Rongrong; Liu, Hong; Hong, Xiaopeng; Gao, Yue; Tian, ​​Qi (2019). "Ataque de perturbación universal contra la recuperación de imágenes". págs. 4899–4908. arXiv : 1812.00552 [cs.CV].
  21. ^ Madry, Alejandro; Makelov, Aleksandar; Schmidt, Luis; Tsipras, Dimitris; Vladu, Adrián (19 de junio de 2017). "Hacia modelos de aprendizaje profundo resistentes a ataques adversarios". arXiv : 1706.06083v4 [estad.ML].
  22. ^ Deselaers, Thomas; Keysers, Daniel; Ney, Hermann (2007). "Funciones para la recuperación de imágenes: una comparación experimental" (PDF) . Universidad RWTH de Aquisgrán . Consultado el 11 de marzo de 2014 .
  23. ^ Bhattacharjee, Pijush kanti (2010). "Integración de métodos de indexación de grupos de píxeles, intersección de histogramas y transformación de ondas discretas para un sistema de recuperación de imágenes basado en contenido de imágenes en color" (PDF) . Revista Internacional de Ingeniería Eléctrica y Computadora [IJCEE], Singapur, vol. 2, núm. 2, págs. 345-352, 2010 .
  24. ^ Wang, James Ze; Jia Li ; Gio Wiederhold; Óscar Firschein (1998). "Sistema de detección de imágenes objetables". Comunicaciones informáticas . 21 (15): 1355-1360. CiteSeerX 10.1.1.78.7689 . doi :10.1016/s0140-3664(98)00203-5. 

Otras lecturas

Artículos de investigación relevantes

enlaces externos