Modelo de clasificación de imágenes
En visión artificial , el modelo de bolsa de palabras (modelo BoW), a veces llamado modelo de bolsa de palabras visuales [1] [2], se puede aplicar a la clasificación o recuperación de imágenes , al tratar las características de la imagen como palabras. En la clasificación de documentos , una bolsa de palabras es un vector disperso de recuentos de ocurrencia de palabras; es decir, un histograma disperso sobre el vocabulario. En visión artificial , una bolsa de palabras visuales es un vector de recuentos de ocurrencia de un vocabulario de características de imagen locales.
Representación de imágenes basada en el modelo BoW
Para representar una imagen utilizando el modelo BoW, una imagen puede ser tratada como un documento. De manera similar, también es necesario definir las "palabras" en las imágenes. Para lograr esto, generalmente incluye los siguientes tres pasos: detección de características , descripción de características y generación de libros de códigos. [1] [2] [3]
Una definición del modelo BoW puede ser la "representación de histograma basada en características independientes". [4] La indexación y recuperación de imágenes basada en contenido (CBIR) parece ser la primera en adoptar esta técnica de representación de imágenes. [5]
Representación de características
Después de la detección de características, cada imagen se abstrae en varios parches locales. Los métodos de representación de características tratan de cómo representar los parches como vectores numéricos. Estos vectores se denominan descriptores de características. Un buen descriptor debe tener la capacidad de manejar la intensidad, la rotación, la escala y las variaciones afines hasta cierto punto. Uno de los descriptores más famosos es la transformación de características invariante a escala (SIFT). [6] SIFT convierte cada parche en un vector de 128 dimensiones. Después de este paso, cada imagen es una colección de vectores de la misma dimensión (128 para SIFT), donde el orden de los diferentes vectores no tiene importancia.
Generación de libros de códigos
El paso final del modelo BoW es convertir los parches representados por vectores en "palabras de código" (análogas a las palabras en los documentos de texto), lo que también produce un "libro de códigos" (análogo a un diccionario de palabras). Una palabra de código puede considerarse como un representante de varios parches similares. Un método simple es realizar una agrupación de k-medias sobre todos los vectores. [7] Las palabras de código se definen entonces como los centros de los grupos aprendidos. La cantidad de grupos es el tamaño del libro de códigos (análogo al tamaño del diccionario de palabras).
De este modo, cada parche de una imagen se asigna a una determinada palabra de código a través del proceso de agrupamiento y la imagen se puede representar mediante el histograma de las palabras de código.
Aprendizaje y reconocimiento basado en el modelo BoW
Los investigadores de visión artificial han desarrollado varios métodos de aprendizaje para aprovechar el modelo BoW en tareas relacionadas con imágenes, como la categorización de objetos . Estos métodos se pueden dividir en dos categorías: modelos supervisados y no supervisados. Para problemas de categorización de etiquetas múltiples, la matriz de confusión se puede utilizar como métrica de evaluación.
Modelos no supervisados
A continuación se muestran algunas anotaciones para esta sección. Supongamos que el tamaño del libro de códigos es .
- : cada parche es un vector de dimensión V que tiene un único componente igual a uno y todos los demás componentes iguales a cero (para la configuración de agrupamiento de k-medias, el único componente igual a uno indica el grupo al que pertenece). La palabra clave n en el libro de códigos se puede representar como y para .
- : cada imagen está representada por todos los parches en una imagen
- : la imagen número 1 en una colección de imágenes
- :categoría de la imagen
- :tema o tópico del parche
- : proporción de la mezcla
Dado que el modelo BoW es una analogía del modelo BoW en PNL, los modelos generativos desarrollados en dominios textuales también se pueden adaptar a la visión artificial. Se analizan el modelo bayesiano ingenuo simple y los modelos bayesianos jerárquicos.
Bayes ingenuo
El más simple es el clasificador Naive Bayes . [2] Utilizando el lenguaje de los modelos gráficos , el clasificador Naive Bayes se describe mediante la siguiente ecuación. La idea básica (o suposición) de este modelo es que cada categoría tiene su propia distribución en los libros de códigos, y que las distribuciones de cada categoría son observablemente diferentes. Tomemos como ejemplo una categoría de rostro y una categoría de automóvil. La categoría de rostro puede enfatizar las palabras clave que representan "nariz", "ojo" y "boca", mientras que la categoría de automóvil puede enfatizar las palabras clave que representan "rueda" y "ventana". Dada una colección de ejemplos de entrenamiento, el clasificador aprende diferentes distribuciones para diferentes categorías. La decisión de categorización se toma mediante
Dado que el clasificador Naive Bayes es simple pero efectivo, generalmente se utiliza como método de base para la comparación.
Modelos bayesianos jerárquicos
El supuesto básico del modelo Naive Bayes no se cumple a veces. Por ejemplo, una imagen de una escena natural puede contener varios temas diferentes. El análisis semántico latente probabilístico (pLSA) [8] [9] y la asignación de Dirichlet latente (LDA) [10] son dos modelos de temas populares de dominios de texto para abordar el problema similar de los "temas" múltiples. Tomemos como ejemplo LDA. Para modelar imágenes de escenas naturales utilizando LDA, se hace una analogía con el análisis de documentos:
- La categoría de imagen se asigna a la categoría de documento;
- la proporción de mezcla de temas mapea la proporción de mezcla de tópicos;
- El índice del tema se asigna al índice de tópicos;
- La palabra clave se asigna a la palabra.
Este método muestra resultados muy prometedores en la categorización de escenas naturales en 13 categorías de escenas naturales. [3]
Modelos supervisados
Dado que las imágenes se representan en función del modelo BoW, se puede probar cualquier modelo discriminativo adecuado para la categorización de documentos de texto, como la máquina de vectores de soporte (SVM) [2] y AdaBoost . [11] El truco del kernel también es aplicable cuando se utiliza un clasificador basado en kernel, como SVM. El kernel de coincidencia piramidal es uno desarrollado recientemente basado en el modelo BoW. El enfoque de características locales de usar la representación del modelo BoW aprendida por clasificadores de aprendizaje automático con diferentes kernels (por ejemplo, EMD-kernel y kernel) se ha probado ampliamente en el área de reconocimiento de texturas y objetos. [12] Se han informado resultados muy prometedores en varios conjuntos de datos. Este enfoque [12] ha logrado resultados muy impresionantes en el PASCAL Visual Object Classes Challenge.
Núcleo de coincidencia de pirámide
El kernel de coincidencia piramidal [13] es un algoritmo rápido (complejidad lineal en lugar de la clásica en complejidad cuadrática) con función kernel (que satisface la condición de Mercer ) que mapea las características de BoW, o un conjunto de características en alta dimensión, a histogramas multidimensionales de resolución múltiple. Una ventaja de estos histogramas de resolución múltiple es su capacidad para capturar características co-ocurrentes. El kernel de coincidencia piramidal construye histogramas de resolución múltiple agrupando los puntos de datos en regiones discretas de tamaño creciente. Por lo tanto, los puntos que no coinciden en resoluciones altas tienen la posibilidad de coincidir en resoluciones bajas. El kernel de coincidencia piramidal realiza una coincidencia de similitud aproximada, sin búsqueda explícita o cálculo de distancia. En cambio, interseca los histogramas para aproximarse a la coincidencia óptima. En consecuencia, el tiempo de cálculo es solo lineal en el número de características. En comparación con otros enfoques de kernel, el kernel de coincidencia piramidal es mucho más rápido, pero proporciona una precisión equivalente. El kernel de coincidencia piramidal se aplicó a la base de datos ETH-80 y a la base de datos Caltech 101 con resultados prometedores. [13] [14]
Limitaciones y desarrollos recientes
Una de las desventajas notorias de BoW es que ignora las relaciones espaciales entre los parches, que son muy importantes en la representación de imágenes. Los investigadores han propuesto varios métodos para incorporar la información espacial. Para mejoras a nivel de características, las características del correlograma pueden capturar coocurrencias espaciales de características. [15] Para los modelos generativos, también se tienen en cuenta las posiciones relativas [16] [17] de las palabras de código. El modelo jerárquico de forma y apariencia para la acción humana [18] introduce una nueva capa de partes ( modelo de constelación ) entre la proporción de la mezcla y las características de BoW, que captura las relaciones espaciales entre las partes de la capa. Para los modelos discriminativos, la coincidencia de pirámide espacial [19] realiza la coincidencia de pirámide dividiendo la imagen en subregiones cada vez más finas y calculando histogramas de características locales dentro de cada subregión. Recientemente, una ampliación de los descriptores de imágenes locales (es decir, SIFT ) mediante sus coordenadas espaciales normalizadas por el ancho y la altura de la imagen ha demostrado ser un enfoque de codificación de coordenadas espaciales sólido y simple [20] [21] que introduce información espacial al modelo BoW.
El modelo BoW aún no ha sido probado exhaustivamente en cuanto a invariancia de punto de vista y de escala, y su desempeño no está claro. Además, el modelo BoW para la segmentación y localización de objetos no se comprende bien. [4]
Una comparación sistemática de los procesos de clasificación encontró que la codificación de estadísticas de primer y segundo orden (Vector de Descriptores Agregados Localmente (VLAD) [22] y Vector de Fisher (FV) ) aumentó considerablemente la precisión de la clasificación en comparación con BoW, al mismo tiempo que disminuyó el tamaño del libro de códigos, reduciendo así el esfuerzo computacional para la generación del libro de códigos. [23] Además, una comparación detallada reciente de los métodos de codificación y agrupación [21] para BoW ha demostrado que las estadísticas de segundo orden combinadas con codificación dispersa y una agrupación adecuada como la normalización de potencia pueden superar aún más a los vectores de Fisher e incluso aproximarse a los resultados de modelos simples de red neuronal convolucional en algunos conjuntos de datos de reconocimiento de objetos como Oxford Flower Dataset 102 .
Véase también
Referencias
- ^ ab Video Google: Un enfoque de recuperación de texto para la coincidencia de objetos en videos. 13-16 de octubre de 2003. 2003.
- ^ abcd G. Csurka; C. Dance; LX Fan; J. Willamowski y C. Bray (2004). "Categorización visual con bolsas de puntos clave". Actas del Taller internacional ECCV sobre aprendizaje estadístico en visión artificial .
- ^ ab Fei-Fei Li; Perona, P. (2005). "Un modelo jerárquico bayesiano para el aprendizaje de categorías de escenas naturales". Conferencia de la IEEE Computer Society de 2005 sobre visión artificial y reconocimiento de patrones (CVPR'05) . Vol. 2. págs. 524–531. doi :10.1109/CVPR.2005.16. ISBN 978-0-7695-2372-9.S2CID6387937 .
- ^ ab L. Fei-Fei; R. Fergus y A. Torralba. "Reconocimiento y aprendizaje de categorías de objetos, curso corto CVPR 2007".
- ^ Qiu, G. (2002). "Indexación de patrones cromáticos y acromáticos para la recuperación de imágenes en color basada en contenido" (PDF) . Reconocimiento de patrones . 35 (8): 1675–1686. Código Bibliográfico :2002PatRe..35.1675Q. doi :10.1016/S0031-3203(01)00162-5.
- ^ Vidal-Naquet; Ullman (1999). "Reconocimiento de objetos con características informativas y clasificación lineal" (PDF) . Actas de la Novena Conferencia Internacional IEEE sobre Visión por Computador . pp. 1150–1157. CiteSeerX 10.1.1.131.1283 . doi :10.1109/ICCV.2003.1238356. ISBN . 978-0-7695-1950-0. Número de identificación S2C15620181.
- ^ T. Leung; J. Malik (2001). "Representación y reconocimiento de la apariencia visual de materiales utilizando textones tridimensionales" (PDF) . Revista Internacional de Visión por Computador . 43 (1): 29–44. doi :10.1023/A:1011126920638. S2CID 14915716.
- ^ T. Hoffman (1999). "Análisis semántico latente probabilístico" (PDF) . Actas de la decimoquinta conferencia sobre incertidumbre en inteligencia artificial . Archivado desde el original (PDF) el 2007-07-10 . Consultado el 2007-12-10 .
- ^ Sivic, J.; Russell, antes de Cristo; Efros, AA; Zisserman, A.; Freeman, Peso (2005). «Descubriendo objetos y su ubicación en imágenes» (PDF) . Décima Conferencia Internacional IEEE sobre Visión por Computadora (ICCV'05) Volumen 1 . pag. 370. CiteSeerX 10.1.1.184.1253 . doi :10.1109/ICCV.2005.77. ISBN 978-0-7695-2334-7. S2CID 206769491. Archivado desde el original (PDF) el 2020-01-31 . Consultado el 2007-12-10 .
- ^ D. Blei; A. Ng y M. Jordan (2003). Lafferty, John (ed.). "Asignación de Dirichlet latente" (PDF) . Journal of Machine Learning Research . 3 (4–5): 993–1022. doi :10.1162/jmlr.2003.3.4-5.993. Archivado desde el original (PDF) el 2008-08-22 . Consultado el 2007-12-10 .
- ^ Serre, T.; Wolf, L.; Poggio, T. (2005). "Reconocimiento de objetos con características inspiradas en Visual Cortex" (PDF) . Conferencia de la IEEE Computer Society de 2005 sobre visión artificial y reconocimiento de patrones (CVPR'05) . Vol. 2. pág. 994. CiteSeerX 10.1.1.71.5276 . doi :10.1109/CVPR.2005.254. ISBN. 978-0-7695-2372-9. S2CID 260426. Archivado desde el original (PDF) el 6 de julio de 2017. Consultado el 10 de diciembre de 2007 .
- ^ ab Jianguo Zhang; Marcin Marszałek; Svetlana Lazebnik ; Cordelia Schmid (2007). "Características locales y núcleos para la clasificación de texturas y categorías de objetos: un estudio exhaustivo" (PDF) . Revista internacional de visión por computadora . 73 (2): 213–238. doi :10.1007/s11263-006-9794-4. S2CID 1486613.
- ^ ab Grauman, K.; Darrell, T. (2005). "El núcleo de coincidencia piramidal: clasificación discriminativa con conjuntos de características de imagen" (PDF) . Décima Conferencia Internacional IEEE sobre Visión por Computador (ICCV'05) Volumen 1. pág. 1458. CiteSeerX 10.1.1.644.6159 . doi :10.1109/ICCV.2005.239. ISBN. 978-0-7695-2334-7.S2CID13036203 .
- ^ Jianchao Yang; Kai Yu; Yihong Gong; Huang, T. (2009). "Emparejamiento de pirámides espaciales lineales mediante codificación dispersa para la clasificación de imágenes". Conferencia IEEE de 2009 sobre visión artificial y reconocimiento de patrones . pág. 1794. doi :10.1109/CVPR.2009.5206757. ISBN 978-1-4244-3992-8. S2CID 440212. Archivado desde el original el 20 de marzo de 2019. Consultado el 9 de septiembre de 2011 .
- ^ Savarese, S.; Winn, J.; Criminisi, A. (2006). "Modelos de clase de objeto discriminantes de apariencia y forma por correlaciones" (PDF) . Conferencia de la IEEE Computer Society de 2006 sobre visión artificial y reconocimiento de patrones - Volumen 2 (CVPR'06) . Vol. 2. p. 2033. CiteSeerX 10.1.1.587.8853 . doi :10.1109/CVPR.2006.102. ISBN. 978-0-7695-2597-6. S2CID 1457124. Archivado desde el original (PDF) el 29 de octubre de 2013. Consultado el 10 de diciembre de 2007 .
- ^ Sudderth, EB; Torralba, A.; Freeman, WT; Willsky, AS (2005). "Aprendizaje de modelos jerárquicos de escenas, objetos y partes" (PDF) . Décima Conferencia Internacional IEEE sobre Visión por Computador (ICCV'05) Volumen 1. p. 1331. CiteSeerX 10.1.1.128.7259 . doi :10.1109/ICCV.2005.137. ISBN. 978-0-7695-2334-7. S2CID 6153430. Archivado desde el original (PDF) el 2019-02-03 . Consultado el 2007-12-10 .
- ^ E. Sudderth; A. Torralba; W. Freeman y A. Willsky (2005). "Descripción de escenas visuales mediante procesos Dirichlet transformados" (PDF) . Proc. of Neural Information Processing Systems .
- ^ Niebles, Juan Carlos; Li Fei-Fei (2007). "Un modelo jerárquico de forma y apariencia para la clasificación de acciones humanas" (PDF) . 2007 IEEE Conference on Computer Vision and Pattern Recognition . pág. 1. CiteSeerX 10.1.1.173.2667 . doi :10.1109/CVPR.2007.383132. ISBN. 978-1-4244-1179-5.S2CID 9213242 .
- ^ Lazebnik, S. ; Schmid, C. ; Ponce, J. (2006). "Más allá de las bolsas de características: correspondencia de pirámides espaciales para reconocer categorías de escenas naturales" (PDF) . Conferencia de la IEEE Computer Society de 2006 sobre visión artificial y reconocimiento de patrones - Volumen 2 (CVPR'06) . Vol. 2. p. 2169. CiteSeerX 10.1.1.651.9183 . doi :10.1109/CVPR.2006.68. ISBN . 978-0-7695-2597-6. S2CID 2421251. Archivado desde el original (PDF) el 8 de mayo de 2018. Consultado el 10 de diciembre de 2007 .
- ^ Koniusz, Piotr; Yan, Fei; Mikolajczyk, Krystian (1 de mayo de 2013). "Comparación de enfoques de codificación de características de nivel medio y estrategias de agrupación en la detección de conceptos visuales". Visión artificial y comprensión de imágenes . 117 (5): 479–492. doi :10.1016/j.cviu.2012.10.010. ISSN 1077-3142.
- ^ ab Koniusz, Piotr; Yan, Fei; Gosselin, Philippe Henri; Mikolajczyk, Krystian (24 de febrero de 2017). "Agrupamiento de ocurrencias de orden superior para bolsas de palabras: detección visual de conceptos" (PDF) . IEEE Transactions on Pattern Analysis and Machine Intelligence . 39 (2): 313–326. doi :10.1109/TPAMI.2016.2545667. hdl : 10044/1/39814 . ISSN 0162-8828. PMID 27019477.
- ^ Jégou, H.; Douze, M.; Schmid, C.; Pérez, P. (1 de junio de 2010). "Agregación de descriptores locales en una representación de imagen compacta". Conferencia de la IEEE Computer Society sobre visión artificial y reconocimiento de patrones de 2010 (PDF) . pp. 3304–3311. doi :10.1109/CVPR.2010.5540039. ISBN. 978-1-4244-6984-0.S2CID 1912782 .
- ^ Seeland, Marco; Rzanny, Michael; Alaqraa, Nedal; Wäldchen, Jana; Mäder, Patrick (24 de febrero de 2017). "Clasificación de especies de plantas utilizando imágenes de flores: un estudio comparativo de representaciones de características locales". PLOS ONE . 12 (2): e0170629. Bibcode :2017PLoSO..1270629S. doi : 10.1371/journal.pone.0170629 . ISSN 1932-6203. PMC 5325198 . PMID 28234999.
Enlaces externos
- Una demostración de dos clasificadores de bolsas de palabras por L. Fei-Fei, R. Fergus y A. Torralba.
- Caltech Large Scale Image Search Toolbox: una caja de herramientas Matlab/C++ que implementa la búsqueda de archivos invertidos para el modelo Bag of Words. También contiene implementaciones para una búsqueda rápida y aproximada del vecino más cercano mediante un árbol kd aleatorio , un algoritmo hash sensible a la localidad y k-means jerárquicos.