La recuperación de imágenes basada en contenido , también conocida como consulta por contenido de imagen ( QBIC ) y recuperación de información visual basada en contenido ( CBVIR ), es la aplicación de técnicas de visión artificial al problema de recuperación de imágenes , es decir, el problema de buscar imágenes digitales en grandes bases de datos (consulte esta encuesta [1] para obtener una descripción científica general del campo CBIR). La recuperación de imágenes basada en contenido se opone a los enfoques tradicionales basados en conceptos (consulte Indexación de imágenes basada en conceptos ).
"Basada en contenido" significa que la búsqueda analiza el contenido de la imagen en lugar de los metadatos , como palabras clave, etiquetas o descripciones asociadas con la imagen. El término "contenido" en este contexto puede referirse a colores, formas, texturas o cualquier otra información que pueda derivarse de la propia imagen. La búsqueda basada en contenido es conveniente porque las búsquedas que se basan exclusivamente en metadatos dependen de la calidad y la integridad de las anotaciones .
Una metabúsqueda de imágenes requiere que los humanos hayan anotado imágenes manualmente ingresando palabras clave o metadatos en una gran base de datos, lo que puede llevar mucho tiempo y puede no capturar las palabras clave deseadas para describir la imagen. La evaluación de la efectividad de la búsqueda de imágenes por palabras clave es subjetiva y no ha sido bien definida. En el mismo sentido, los sistemas CBIR tienen desafíos similares para definir el éxito. [2] "Las palabras clave también limitan el alcance de las consultas al conjunto de criterios predeterminados". y "haber sido configurado" son menos confiables que usar el contenido en sí. [3]
El término "recuperación de imágenes basada en contenido" parece haberse originado en 1992, cuando fue utilizado por el ingeniero del Laboratorio Electrotécnico Japonés Toshikazu Kato para describir experimentos de recuperación automática de imágenes de una base de datos, basándose en los colores y formas presentes. [2] [4] Desde entonces, el término se ha utilizado para describir el proceso de recuperación de imágenes deseadas de una gran colección sobre la base de características sintácticas de la imagen. Las técnicas, herramientas y algoritmos que se utilizan se originan en campos como la estadística, el reconocimiento de patrones, el procesamiento de señales y la visión artificial. [1]
El primer sistema CBIR comercial fue desarrollado por IBM y se llamó QBIC ( Consulta por contenido de imágenes ). [ 5] [6] Los enfoques recientes basados en redes y gráficos han presentado una alternativa simple y atractiva a los métodos existentes. [7]
Si bien el almacenamiento de múltiples imágenes como parte de una sola entidad precedió al término BLOB ( B inary Large Object ), [ 8] la capacidad de buscar completamente por contenido, en lugar de por descripción, tuvo que esperar a QBIC de IBM. [3]
VisualRank es un sistema para buscar y clasificar imágenes mediante el análisis y la comparación de su contenido, en lugar de buscar nombres de imágenes, enlaces web u otro texto. Los científicos de Google hicieron público su trabajo sobre VisualRank en un artículo que describe la aplicación de PageRank a la búsqueda de imágenes de Google en la Conferencia Internacional World Wide Web celebrada en Pekín en 2008.
[9]El interés en CBIR ha crecido debido a las limitaciones inherentes a los sistemas basados en metadatos, así como a la amplia gama de posibles usos para la recuperación eficiente de imágenes. La información textual sobre imágenes se puede buscar fácilmente utilizando la tecnología existente, pero esto requiere que los humanos describan manualmente cada imagen en la base de datos. Esto puede ser poco práctico para bases de datos muy grandes o para imágenes que se generan automáticamente, por ejemplo, las de cámaras de vigilancia . También es posible pasar por alto imágenes que utilizan diferentes sinónimos en sus descripciones. Los sistemas basados en la categorización de imágenes en clases semánticas como "gato" como una subclase de "animal" pueden evitar el problema de la categorización errónea, pero requerirán un mayor esfuerzo por parte del usuario para encontrar imágenes que podrían ser "gatos", pero solo están clasificadas como un "animal". Se han desarrollado muchos estándares para categorizar imágenes, pero todos enfrentan problemas de escala y categorización errónea. [2]
Los sistemas CBIR iniciales se desarrollaron para buscar bases de datos basadas en propiedades de color, textura y forma de imágenes. Después de que se desarrollaron estos sistemas, se hizo evidente la necesidad de interfaces fáciles de usar. Por lo tanto, los esfuerzos en el campo CBIR comenzaron a incluir un diseño centrado en el ser humano que intentara satisfacer las necesidades del usuario que realiza la búsqueda. Esto generalmente significa la inclusión de: métodos de consulta que puedan permitir semántica descriptiva, consultas que puedan involucrar comentarios del usuario, sistemas que puedan incluir aprendizaje automático y sistemas que puedan comprender los niveles de satisfacción del usuario. [1]
Se han desarrollado muchos sistemas CBIR, pero a fecha de 2006 [actualizar], el problema de recuperar imágenes en función de su contenido de píxeles sigue en gran medida sin resolverse. [1] [ necesita actualización ]
Diferentes técnicas de consulta e implementaciones de CBIR hacen uso de diferentes tipos de consultas de usuario.
QBE ( Query By Example ) es una técnica de consulta [ 10] que implica proporcionar al sistema CBIR una imagen de ejemplo sobre la que luego basará su búsqueda. Los algoritmos de búsqueda subyacentes pueden variar según la aplicación, pero las imágenes resultantes deben compartir elementos comunes con el ejemplo proporcionado. [11]
Las opciones para proporcionar imágenes de ejemplo al sistema incluyen:
Esta técnica de consulta elimina las dificultades que pueden surgir al intentar describir imágenes con palabras.
La recuperación semántica comienza cuando un usuario realiza una solicitud como "encontrar imágenes de Abraham Lincoln". Este tipo de tarea abierta es muy difícil de realizar para las computadoras: Lincoln puede no estar siempre frente a la cámara o en la misma pose . Por lo tanto, muchos sistemas CBIR generalmente utilizan características de nivel inferior como textura, color y forma. Estas características se utilizan en combinación con interfaces que permiten una entrada más sencilla de los criterios o con bases de datos que ya han sido entrenadas para hacer coincidir características (como rostros, huellas dactilares o coincidencia de formas). Sin embargo, en general, la recuperación de imágenes requiere retroalimentación humana para identificar conceptos de nivel superior. [6]
La combinación de las técnicas de búsqueda CBIR disponibles con la amplia gama de usuarios potenciales y sus intenciones puede ser una tarea difícil. Un aspecto del éxito de CBIR depende enteramente de la capacidad de comprender la intención del usuario. [12] Los sistemas CBIR pueden hacer uso de la retroalimentación de relevancia , donde el usuario refina progresivamente los resultados de la búsqueda marcando las imágenes en los resultados como "relevantes", "no relevantes" o "neutrales" para la consulta de búsqueda, y luego repitiendo la búsqueda con la nueva información. Se han desarrollado ejemplos de este tipo de interfaz. [13]
El aprendizaje automático y la aplicación de técnicas iterativas son cada vez más comunes en CBIR. [14]
Otros métodos de consulta incluyen la exploración de imágenes de ejemplo, la navegación por categorías personalizadas/jerárquicas, la consulta por región de la imagen (en lugar de por toda la imagen), la consulta por múltiples imágenes de ejemplo, la consulta por boceto visual, la consulta por especificación directa de características de la imagen y consultas multimodales (por ejemplo, combinando tacto, voz, etc.) [15].
El método más común para comparar dos imágenes en la recuperación de imágenes basada en contenido (normalmente una imagen de ejemplo y una imagen de la base de datos) es utilizar una medida de distancia de imagen. Una medida de distancia de imagen compara la similitud de dos imágenes en varias dimensiones, como color, textura, forma y otras. Por ejemplo, una distancia de 0 significa una coincidencia exacta con la consulta, con respecto a las dimensiones que se consideraron. Como se puede intuir, un valor mayor que 0 indica varios grados de similitud entre las imágenes. Los resultados de la búsqueda se pueden ordenar en función de su distancia a la imagen consultada. [11] Se han desarrollado muchas medidas de distancia de imagen (modelos de similitud). [16]
El cálculo de medidas de distancia basadas en la similitud de colores se logra calculando un histograma de color para cada imagen que identifica la proporción de píxeles dentro de una imagen que contienen valores específicos. [2] Examinar imágenes en función de los colores que contienen es una de las técnicas más utilizadas porque se puede realizar sin tener en cuenta el tamaño o la orientación de la imagen. [6] Sin embargo, la investigación también ha intentado segmentar la proporción de color por región y por relación espacial entre varias regiones de color. [15]
Las medidas de textura buscan patrones visuales en imágenes y cómo se definen espacialmente. Las texturas se representan mediante texeles que luego se colocan en una serie de conjuntos, según la cantidad de texturas que se detecten en la imagen. Estos conjuntos no solo definen la textura, sino también dónde se ubica la textura en la imagen. [11]
La textura es un concepto difícil de representar. La identificación de texturas específicas en una imagen se logra principalmente modelando la textura como una variación de nivel de gris bidimensional. El brillo relativo de pares de píxeles se calcula de manera que se pueda estimar el grado de contraste, regularidad, aspereza y direccionalidad. [6] [17] El problema está en identificar patrones de variación de copíxeles y asociarlos con clases particulares de texturas como sedosa o rugosa .
Otros métodos de clasificación de texturas incluyen:
La forma no se refiere a la forma de una imagen, sino a la forma de una región particular que se busca. Las formas a menudo se determinan primero aplicando segmentación o detección de bordes a una imagen. Otros métodos utilizan filtros de forma para identificar formas dadas de una imagen. [18] Los descriptores de forma también pueden necesitar ser invariables a la traslación, rotación y escala. [6]
Algunos descriptores de forma incluyen: [6]
Al igual que otras tareas en la visión artificial, como el reconocimiento y la detección, los algoritmos de recuperación basados en redes neuronales recientes son susceptibles a ataques adversarios , tanto a candidatos como a consultas. [19] Se ha demostrado que la clasificación recuperada podría alterarse drásticamente con solo pequeñas perturbaciones imperceptibles para los seres humanos. Además, también son posibles ejemplos adversarios transferibles y agnósticos del modelo, lo que permite ataques adversarios de caja negra en sistemas de clasificación profunda sin necesidad de acceder a sus implementaciones subyacentes. [19] [20]
Por el contrario, la resistencia a tales ataques se puede mejorar mediante defensas adversarias como la defensa Madry. [21]
Las medidas de recuperación de imágenes se pueden definir en términos de precisión y recuperación . Sin embargo, se están considerando otros métodos. [22]
Una imagen se recupera en un sistema CBIR adoptando varias técnicas simultáneamente, como la integración de indexación de grupos de píxeles, la intersección de histogramas y los métodos de transformación wavelet discreta. [23]
Los posibles usos del CBIR incluyen: [2]
Los sistemas comerciales que se han desarrollado incluyen: [2]
Los sistemas experimentales incluyen: [2]
En la DB Expo de San Francisco a principios de este mes...[ enlace muerto permanente ]
Resumen: La investigación sobre formas de ampliar y mejorar los métodos de consulta para bases de datos de imágenes está muy extendida. Hemos desarrollado el sistema QBIC (Consulta por contenido de imagen) ...
QBE es un lenguaje para realizar consultas...