El modelo de constelación es un modelo generativo y probabilístico para el reconocimiento de objetos a nivel de categoría en la visión artificial . Al igual que otros modelos basados en partes , el modelo de constelación intenta representar una clase de objeto mediante un conjunto de N partes bajo restricciones geométricas mutuas. Debido a que considera la relación geométrica entre diferentes partes, el modelo de constelación difiere significativamente de los modelos de representación basados únicamente en la apariencia o de " bolsa de palabras ", que ignoran explícitamente la ubicación de las características de la imagen.
El problema de definir un modelo generativo para el reconocimiento de objetos es difícil. La tarea se complica considerablemente debido a factores como el desorden del fondo, la oclusión y las variaciones en el punto de vista, la iluminación y la escala. Lo ideal sería que la representación particular que elijamos fuera resistente a la mayor cantidad posible de estos factores.
En el reconocimiento a nivel de categoría, el problema es aún más complicado debido al problema fundamental de la variación intraclase. Incluso si dos objetos pertenecen a la misma categoría visual, sus apariencias pueden ser significativamente diferentes. Sin embargo, en el caso de objetos estructurados como automóviles, bicicletas y personas, las instancias separadas de objetos de la misma categoría están sujetas a restricciones geométricas similares. Por este motivo, partes particulares de un objeto, como los faros o los neumáticos de un automóvil, siguen teniendo apariencias y posiciones relativas consistentes. El modelo de constelación aprovecha este hecho al modelar explícitamente la ubicación relativa, la escala relativa y la apariencia de estas partes para una categoría de objeto en particular. Los parámetros del modelo se estiman utilizando un algoritmo de aprendizaje no supervisado , lo que significa que el concepto visual de una clase de objeto se puede extraer de un conjunto de imágenes de entrenamiento sin etiquetar, incluso si ese conjunto contiene imágenes "basura" o instancias de objetos de múltiples categorías. También puede explicar la ausencia de partes del modelo debido a la variabilidad de la apariencia, la oclusión, el desorden o el error del detector.
La idea de un modelo de "partes y estructura" fue introducida originalmente por Fischler y Elschlager en 1973. [1] Desde entonces, este modelo se ha desarrollado y ampliado en muchas direcciones. El modelo de constelación, tal como lo introdujeron el Dr. Perona y sus colegas, fue una adaptación probabilística de este enfoque.
A finales de los años 90, Burl et al. [2] [3] [4] [5] revisaron el modelo de Fischler y Elschlager con el propósito de reconocimiento facial. En su trabajo, Burl et al. utilizaron la selección manual de partes de la constelación en imágenes de entrenamiento para construir un modelo estadístico para un conjunto de detectores y las ubicaciones relativas en las que deberían aplicarse. En 2000, Weber et al. [6] [7] [8] [9] dieron el paso importante de entrenar el modelo utilizando un proceso de aprendizaje más no supervisado, lo que evitó la necesidad del tedioso etiquetado manual de las partes. Su algoritmo fue particularmente notable porque funcionó bien incluso en datos de imágenes desordenadas y ocluidas. Fergus et al. [10] [11] luego mejoraron este modelo al hacer que el paso de aprendizaje fuera completamente no supervisado, haciendo que tanto la forma como la apariencia se aprendieran simultáneamente y teniendo en cuenta explícitamente la escala relativa de las partes.
En el primer paso, se utiliza un método de detección de puntos de interés estándar , como la detección de esquinas de Harris , para generar puntos de interés. Las características de la imagen generadas a partir de la proximidad de estos puntos se agrupan luego utilizando k-means u otro algoritmo apropiado. En este proceso de cuantificación vectorial , se puede pensar en los centroides de estos grupos como representativos de la apariencia de partes distintivas del objeto. Luego se entrenan detectores de características apropiados utilizando estos grupos, que se pueden usar para obtener un conjunto de partes candidatas a partir de imágenes. [9]
Como resultado de este proceso, cada imagen puede ahora representarse como un conjunto de partes. Cada parte tiene un tipo, que corresponde a uno de los grupos de apariencias antes mencionados, así como una ubicación en el espacio de la imagen.
Weber y Welling introducen aquí el concepto de primer plano y segundo plano . Las partes del primer plano corresponden a una instancia de una clase de objeto de destino, mientras que las partes del segundo plano corresponden a la confusión del fondo o a las detecciones falsas.
Sea T el número de diferentes tipos de partes. Las posiciones de todas las partes extraídas de una imagen pueden representarse en la siguiente "matriz":
donde representa el número de partes de tipo observadas en la imagen. El superíndice o indica que estas posiciones son observables , en oposición a faltantes . Las posiciones de las partes no observadas del objeto se pueden representar mediante el vector . Supongamos que el objeto estará compuesto de partes distintas en primer plano. Para simplificar la notación, suponemos aquí que , aunque el modelo se puede generalizar a . Una hipótesis se define entonces como un conjunto de índices, con , indicando que el punto es un punto en primer plano en . El modelo probabilístico generativo se define a través de la densidad de probabilidad conjunta .
El resto de esta sección resume los detalles del modelo de Weber y Welling para un modelo de un solo componente. Las fórmulas para los modelos de múltiples componentes [8] son extensiones de las que se describen aquí.
Para parametrizar la densidad de probabilidad conjunta, Weber y Welling introducen las variables auxiliares y , donde es un vector binario que codifica la presencia/ausencia de partes en la detección ( si , en caso contrario ), y es un vector donde denota el número de candidatos de fondo incluidos en la fila de . Dado que y están completamente determinados por y el tamaño de , tenemos . Por descomposición,
La densidad de probabilidad sobre el número de detecciones de fondo se puede modelar mediante una distribución de Poisson ,
donde es el número promedio de detecciones de fondo de tipo por imagen.
Dependiendo del número de partes , la probabilidad se puede modelar como una tabla explícita de longitud o, si es grande, como probabilidades independientes, cada una de las cuales rige la presencia de una parte individual.
La densidad se modela mediante
donde denota el conjunto de todas las hipótesis consistentes con y , y denota el número total de detecciones de partes del tipo . Esto expresa el hecho de que todas las hipótesis consistentes, de las cuales hay , son igualmente probables en ausencia de información sobre las ubicaciones de las partes.
Y por último,
donde son las coordenadas de todas las detecciones de primer plano, observadas y faltantes, y representa las coordenadas de las detecciones de fondo. Tenga en cuenta que se supone que las detecciones de primer plano son independientes del fondo. se modela como una gaussiana conjunta con media y covarianza .
El objetivo final de este modelo es clasificar las imágenes en clases "objeto presente" (clase ) y "objeto ausente" (clase ) dada la observación . Para lograr esto, Weber & Welling ejecuta detectores parciales del paso de aprendizaje de forma exhaustiva sobre la imagen, examinando diferentes combinaciones de detecciones. Si se considera la oclusión, también se permiten combinaciones con detecciones faltantes. El objetivo es entonces seleccionar la clase con máxima probabilidad a posteriori, considerando la relación
donde denota la hipótesis nula, que explica todas las partes como ruido de fondo. En el numerador, la suma incluye todas las hipótesis, incluida la hipótesis nula, mientras que en el denominador, la única hipótesis consistente con la ausencia de un objeto es la hipótesis nula. En la práctica, se puede definir un umbral tal que, si la proporción excede ese umbral, entonces consideramos que se ha detectado una instancia de un objeto.
Después del paso preliminar de detección de puntos de interés, generación de características y agrupamiento, tenemos un gran conjunto de partes candidatas sobre las imágenes de entrenamiento. Para aprender el modelo, Weber & Welling primero realiza una búsqueda voraz sobre posibles configuraciones del modelo o, equivalentemente, sobre posibles subconjuntos de las partes candidatas. Esto se hace de manera iterativa, comenzando con una selección aleatoria. En iteraciones posteriores, las partes del modelo se sustituyen aleatoriamente, se estiman los parámetros del modelo y se evalúa el rendimiento. El proceso se completa cuando ya no es posible realizar más mejoras en el rendimiento del modelo.
En cada iteración, los parámetros del modelo
se estiman utilizando la maximización de expectativas . y , recordamos, son la media y la covarianza de la distribución gaussiana conjunta , es la distribución de probabilidad que rige la presencia/ausencia binaria de partes, y es el número medio de detecciones de fondo sobre los tipos de partes.
EM procede maximizando la probabilidad de los datos observados,
con respecto a los parámetros del modelo . Dado que esto es difícil de lograr analíticamente, EM maximiza iterativamente una secuencia de funciones de costo,
Tomando la derivada de esto con respecto a los parámetros e igualándola a cero se obtienen las reglas de actualización:
Las reglas de actualización en el paso M se expresan en términos de estadísticas suficientes , , , y , que se calculan en el paso E considerando la densidad posterior:
En Weber et al., los modelos de forma y apariencia se construyen por separado. Una vez que se ha seleccionado el conjunto de partes candidatas, la forma se aprende independientemente de la apariencia. La innovación de Fergus et al. es aprender no solo dos, sino tres parámetros del modelo simultáneamente: forma, apariencia y escala relativa. Cada uno de estos parámetros se representa mediante densidades gaussianas. [10]
Mientras que el paso preliminar en el método de Weber et al. es buscar las ubicaciones de los puntos de interés, Fergus et al. utilizan el detector de Kadir y Brady [12] para encontrar regiones salientes en la imagen tanto en la ubicación (centro) como en la escala (radio). Por lo tanto, además de la información de ubicación, este método también extrae información de escala asociada . Luego, Fergus et al. normalizan los cuadrados que delimitan estas regiones circulares a parches de píxeles de 11 x 11 o, equivalentemente, vectores de 121 dimensiones en el espacio de apariencia. Luego, estos se reducen a 10-15 dimensiones mediante análisis de componentes principales , lo que proporciona la información de apariencia .
Dado un modelo de clase de objeto particular con parámetros , debemos decidir si una nueva imagen contiene o no una instancia de esa clase. Esto se logra tomando una decisión bayesiana,
donde es el modelo de fondo. Esta relación se compara con un umbral para determinar la presencia o ausencia de objetos.
Las probabilidades se calculan de la siguiente manera:
Cada parte tiene una apariencia modelada por una densidad gaussiana en el espacio de apariencia, con parámetros de media y covarianza , independientes de las densidades de las otras partes. El modelo de fondo tiene parámetros . Fergus et al. suponen que, dadas las características detectadas, la posición y la apariencia de esas características son independientes. Por lo tanto, . La relación de los términos de apariencia se reduce a
Recordemos de Weber et al. que es la hipótesis para los índices de las partes del primer plano, y es el vector binario que da el estado de oclusión de cada parte en la hipótesis.
La forma se representa mediante una densidad gaussiana conjunta de ubicaciones de partes dentro de una hipótesis particular, después de que esas partes se hayan transformado en un espacio invariante de escala. Esta transformación evita la necesidad de realizar una búsqueda exhaustiva sobre la escala. La densidad gaussiana tiene parámetros . Se supone que el modelo de fondo es una distribución uniforme sobre la imagen, que tiene un área . Si , es el número de partes del primer plano,
La escala de cada parte en relación con un marco de referencia se modela mediante una densidad gaussiana con parámetros . Se supone que cada parte es independiente de las demás partes. El modelo de fondo supone una distribución uniforme a lo largo de la escala, dentro de un rango .
El primer factor modela la cantidad de características detectadas mediante una distribución de Poisson , que tiene una media M. El segundo factor sirve como factor de "contabilidad" para la variable de hipótesis. El último factor es una tabla de probabilidad para todos los patrones de oclusión posibles.
La tarea de aprender los parámetros del modelo se logra mediante la maximización de expectativas . Esto se lleva a cabo con un espíritu similar al de Weber et al. Los detalles y fórmulas para el paso E y el paso M se pueden ver en la literatura. [11]
El modelo de constelación, tal como lo concibieron Fergus et al., logra índices de categorización exitosos consistentemente superiores al 90 % en grandes conjuntos de datos de motocicletas, rostros, aviones y gatos moteados. [13] Para cada uno de estos conjuntos de datos, el modelo de constelación puede capturar la "esencia" de la clase de objeto en términos de apariencia y/o forma. Por ejemplo, los conjuntos de datos de rostros y motocicletas generan modelos de forma muy precisos porque los objetos en esas categorías tienen una estructura muy bien definida, mientras que los gatos moteados varían significativamente en pose, pero tienen una apariencia moteada muy distintiva. Por lo tanto, el modelo tiene éxito en ambos casos. Es importante señalar que el modelo de constelación generalmente no tiene en cuenta los cambios significativos en la orientación. Por lo tanto, si el modelo se entrena con imágenes de aviones horizontales, no funcionará bien, por ejemplo, en imágenes de planos orientados verticalmente a menos que el modelo se extienda para tener en cuenta este tipo de rotación explícitamente.
En términos de complejidad computacional, el modelo de constelación es muy costoso. Si es el número de detecciones de características en la imagen y el número de partes en el modelo de objetos, entonces el espacio de hipótesis es . Debido a que el cálculo de estadísticas suficientes en el paso E de maximización de expectativas requiere evaluar la probabilidad de cada hipótesis, el aprendizaje se convierte en una operación de cuello de botella importante. Por esta razón, solo se han utilizado valores de en aplicaciones prácticas, y el número de detecciones de características generalmente se mantiene dentro del rango de aproximadamente 20 a 30 por imagen.
Una variación que intenta reducir la complejidad es el modelo en estrella propuesto por Fergus et al. [14] Las dependencias reducidas de este modelo permiten el aprendizaje en el tiempo en lugar de en . Esto permite utilizar una mayor cantidad de partes del modelo y características de la imagen en el entrenamiento. Debido a que el modelo en estrella tiene menos parámetros, también es mejor para evitar el problema del sobreajuste cuando se entrena con menos imágenes.