stringtranslate.com

Aprendizaje de una sola muestra (visión por computadora)

El aprendizaje de una sola muestra es un problema de categorización de objetos que se encuentra principalmente en la visión artificial . Mientras que la mayoría de los algoritmos de categorización de objetos basados ​​en el aprendizaje automático requieren entrenamiento con cientos o miles de ejemplos, el aprendizaje de una sola muestra tiene como objetivo clasificar objetos a partir de uno o solo unos pocos ejemplos. El término aprendizaje de pocas muestras también se utiliza para estos problemas, especialmente cuando se necesita más de un ejemplo.

Motivación

La capacidad de aprender categorías de objetos a partir de unos pocos ejemplos y a un ritmo rápido ha sido demostrada en los seres humanos. [1] [2] Se estima que un niño aprende casi todas las 10 ~ 30 mil categorías de objetos que existen en el mundo a la edad de seis años. [3] Esto se debe no solo a la capacidad computacional de la mente humana, sino también a su capacidad de sintetizar y aprender nuevas categorías de objetos a partir de información existente sobre diferentes categorías previamente aprendidas. Dados dos ejemplos de dos categorías de objetos: uno, un objeto desconocido compuesto de formas familiares, el segundo, una forma desconocida y amorfa; es mucho más fácil para los humanos reconocer el primero que el segundo, lo que sugiere que los humanos hacen uso de categorías previamente aprendidas cuando aprenden otras nuevas. La motivación clave para resolver el aprendizaje de una sola vez es que los sistemas, como los humanos, pueden usar el conocimiento sobre las categorías de objetos para clasificar nuevos objetos. [4] [5]

Fondo

Como ocurre con la mayoría de los esquemas de clasificación , el aprendizaje de una sola muestra implica tres desafíos principales:

El aprendizaje de una sola muestra se diferencia del reconocimiento de objetos únicos y de los algoritmos de reconocimiento de categorías estándar en su énfasis en la transferencia de conocimiento, que hace uso de categorías previamente aprendidas.

Teoría

El algoritmo de aprendizaje bayesiano one-shot representa el primer plano y el fondo de las imágenes parametrizados por una mezcla de modelos de constelación. [12] Durante la fase de aprendizaje, los parámetros de estos modelos se aprenden utilizando un parámetro de densidad posterior conjugado y la expectativa-maximización bayesiana variacional (VBEM). [13] En esta etapa, las categorías de objetos previamente aprendidas informan la elección de los parámetros del modelo a través de la transferencia de información contextual. Para el reconocimiento de objetos en nuevas imágenes, el posterior obtenido durante la fase de aprendizaje se utiliza en un marco de decisión bayesiano para estimar la relación de p(objeto | prueba, entrenamiento) a p(desorden del fondo | prueba, entrenamiento) donde p es la probabilidad del resultado. [14]

Marco bayesiano

Dada la tarea de encontrar un objeto particular en una imagen de consulta, el objetivo general del algoritmo de aprendizaje bayesiano de un solo disparo es comparar la probabilidad de que el objeto esté presente con la probabilidad de que solo esté presente el desorden del fondo. Si la primera probabilidad es mayor, el algoritmo informa la presencia del objeto; de lo contrario, el algoritmo informa su ausencia. Para calcular estas probabilidades, la clase de objeto debe modelarse a partir de un conjunto de (1 ~ 5) imágenes de entrenamiento que contengan ejemplos.

Para formalizar estas ideas, supongamos que la imagen de consulta contiene un ejemplo de la categoría de primer plano o solo un desorden de fondo de una categoría de fondo genérica . Supongamos también que el conjunto de imágenes de entrenamiento utilizado como categoría de primer plano. La decisión de si contiene un objeto de la categoría de primer plano o solo un desorden de la categoría de fondo es:

donde las clases posteriores y se han expandido mediante el teorema de Bayes , lo que produce una razón de probabilidades y una razón de valores anteriores de la categoría de objeto . Decidimos que la imagen contiene un objeto de la clase de primer plano si supera un cierto umbral . A continuación, introducimos modelos paramétricos para las categorías de primer plano y de fondo con parámetros y respectivamente. Este modelo paramétrico de primer plano se aprende durante la etapa de aprendizaje a partir de , así como de la información previa de las categorías aprendidas. Suponemos que el modelo de fondo es uniforme en todas las imágenes. Omitiendo la razón constante de valores anteriores de la categoría, , y parametrizando sobre y se obtiene

, habiendo simplificado y a y

La distribución posterior de los parámetros del modelo dadas las imágenes de entrenamiento se estima en la fase de aprendizaje. En esta estimación, el aprendizaje de una sola muestra difiere marcadamente de los modelos de estimación bayesianos más tradicionales que aproximan la integral como . En cambio, utiliza un enfoque variacional que utiliza información previa de categorías previamente aprendidas. Sin embargo, la estimación tradicional de máxima verosimilitud de los parámetros del modelo se utiliza para el modelo de fondo y las categorías aprendidas de antemano a través del entrenamiento. [15]

Modelo de categoría de objeto

Para cada imagen de consulta y las imágenes de entrenamiento , se utiliza un modelo de constelación para la representación. [12] [16] [17] Para obtener este modelo para una imagen dada , primero se detecta un conjunto de N regiones interesantes en la imagen utilizando el detector de saliencia Kadir-Brady . [18] Cada región seleccionada se representa mediante una ubicación en la imagen y una descripción de su apariencia, . Dejando y y las representaciones análogas para las imágenes de entrenamiento, la expresión para R se convierte en:

Las probabilidades y se representan como mezclas de modelos de constelación. Un modelo de constelación típico tiene P(3 ~ 7) partes, con N(~100) regiones de interés. Por lo tanto, un vector h de dimensión P asigna una región de interés (de N regiones) a cada parte del modelo (para P partes). Por lo tanto, h denota una hipótesis (una asignación de regiones de interés a partes del modelo) para el modelo y un modelo de constelación completo se representa sumando todas las hipótesis posibles h en el espacio de hipótesis . Finalmente, la probabilidad se escribe

Las diferentes 's representan diferentes configuraciones de partes, mientras que las diferentes hipótesis h representan diferentes asignaciones de regiones a partes, dado un modelo de parte . La suposición de que la forma del modelo (como se representa por , la colección de ubicaciones de partes) y la apariencia son independientes permite considerar la expresión de probabilidad como dos probabilidades separadas de apariencia y forma. [19]

Apariencia

La apariencia de cada característica está representada por un punto en el espacio de apariencia (que se analiza más adelante en la implementación). "Cada parte del modelo de constelación tiene una densidad gaussiana dentro de este espacio con parámetros de media y precisión ." A partir de estos, la probabilidad de apariencia descrita anteriormente se calcula como un producto de gaussianas sobre las partes del modelo para una hipótesis dada h y un componente de mezcla . [20]

Forma

La forma del modelo para un componente de mezcla dado y la hipótesis h se representa como una densidad gaussiana conjunta de las ubicaciones de las características. Estas características se transforman en un espacio invariante a escala y traslación antes de modelar la ubicación relativa de las partes mediante una gaussiana de 2(P - 1) dimensiones. A partir de esto, obtenemos la probabilidad de forma, completando nuestra representación de . Para reducir el número de hipótesis en el espacio de hipótesis , solo se consideran aquellas hipótesis que satisfacen la restricción de ordenación de que la coordenada x de cada parte aumenta monótonamente. Esto elimina las hipótesis de . [20]

Densidades conjugadas

Para calcular , se debe evaluar la integral , pero es analíticamente intratable. El modelo de categoría de objeto anterior proporciona información sobre , por lo que lo que queda es examinar , la posterior de , y encontrar una aproximación suficiente para hacer que la integral sea manejable. El trabajo previo aproxima la posterior mediante una función centrada en , colapsando la integral en cuestión en . Esto normalmente se estima utilizando un procedimiento de máxima verosimilitud ( ) o máximo a posteriori ( ). Sin embargo, debido a que en el aprendizaje de una sola muestra se utilizan pocos ejemplos de entrenamiento, la distribución no tendrá un pico bien definido, como se supone en una aproximación de función. Por lo tanto, en lugar de esta aproximación tradicional, el algoritmo de aprendizaje de una sola muestra bayesiano busca "encontrar una forma paramétrica de tal que el aprendizaje de sea factible". El algoritmo emplea una distribución Normal - Wishart como la anterior conjugada de , y en la fase de aprendizaje, se utilizan métodos bayesianos variacionales con la misma complejidad computacional que los métodos de máxima verosimilitud para aprender los hiperparámetros de la distribución. Entonces, dado que es un producto de gaussianas, como se eligió en el modelo de categoría de objeto, la integral se reduce a una distribución T de Student multivariada , que puede evaluarse. [21]

Implementación

Detección y representación de características

Para detectar características en una imagen de modo que se puedan representar mediante un modelo de constelación, se utiliza el detector de saliencia Kadir-Brady en imágenes en escala de grises, que busca regiones salientes de la imagen. Luego, estas regiones se agrupan, lo que genera una serie de características (los cúmulos) y el parámetro de forma , compuesto por los centros de los cúmulos. Se eligió el detector Kadir-Brady porque produce menos regiones más salientes, a diferencia de los detectores de características como el detector multiescala Harris, que produce numerosas regiones menos significativas.

Las regiones se toman de la imagen y se redimensionan a un pequeño parche de 11 × 11 píxeles, lo que permite representar cada parche en un espacio de 121 dimensiones. Esta dimensionalidad se reduce mediante el análisis de componentes principales y , a continuación, se forma el parámetro de apariencia a partir de los primeros 10 componentes principales de cada parche. [22]

Aprendiendo

Para obtener valores previos de forma y apariencia, se aprenden tres categorías (gatos con manchas, caras y aviones) mediante la estimación de máxima verosimilitud. Estos parámetros del modelo de categoría de objeto se utilizan luego para estimar los hiperparámetros de los valores previos deseados.

Dado un conjunto de ejemplos de entrenamiento, el algoritmo ejecuta el detector de características en estas imágenes y determina los parámetros del modelo a partir de las regiones salientes. El índice de hipótesis h que asigna características a las partes impide una solución de forma cerrada del modelo lineal, por lo que la posterior se estima mediante un algoritmo de expectativa-maximización bayesiano variacional, que se ejecuta hasta la convergencia de parámetros después de ~ 100 iteraciones. Aprender una categoría de esta manera lleva menos de un minuto en una máquina de 2,8 GHz con un modelo de 4 partes y < 10 imágenes de entrenamiento. [23]

Resultados experimentales

Ejemplo de motocicleta

Para conocer la categoría de moto:

Densidades compartidas en transformaciones

Otro algoritmo utiliza la transferencia de conocimiento mediante parámetros de modelo para aprender una nueva categoría de objeto que sea similar en apariencia a las categorías aprendidas previamente. Una imagen se representa como una textura y una forma, o como una imagen latente que se ha transformado, denotada por .

Una red neuronal siamesa trabaja en conjunto con dos vectores de entrada diferentes para calcular vectores de salida comparables. [24]

Congelación

En este contexto, la congelación es "la vectorización simultánea de cada una de las imágenes de un conjunto entre sí". Para un conjunto de imágenes de entrenamiento de una determinada categoría, la congelación transforma iterativamente cada imagen para minimizar las entropías conjuntas de píxeles de las imágenes E, donde

"donde es la variable aleatoria binaria definida por los valores de un píxel particular p en todas las imágenes, es la función de entropía discreta de esa variable y es el conjunto de índices de píxeles para la imagen".

El algoritmo de congelación comienza con un conjunto de imágenes y una matriz de transformación correspondiente , que al final del algoritmo representará la transformación de en su latente . Estas latentes minimizan las entropías conjuntas de cada píxel. Por lo tanto, la tarea del algoritmo de congelación es estimar las transformaciones .

Bosquejo del algoritmo:

Al final del algoritmo, , y transforma la imagen latente nuevamente en la imagen observada originalmente. [25]

Clasificación

Para utilizar este modelo para la clasificación, debe estimarse con la probabilidad posterior máxima dada una imagen observada . La aplicación de la regla de Bayes y la parametrización por la transformación da como resultado una integral difícil que debe aproximarse y, luego, debe encontrarse la mejor transformación (la que asigna la imagen de prueba a su imagen latente). Una vez que se encuentra esta transformación, la imagen de prueba se puede transformar en su imagen latente y un clasificador de vecino más cercano basado en la distancia de Hausdorff entre imágenes puede clasificar la imagen latente (y, por lo tanto, la imagen de prueba) como perteneciente a una clase particular .

Para encontrar , la imagen de prueba I se inserta en el conjunto de entrenamiento para el proceso de congelación. Dado que la imagen de prueba se extrae de una de las categorías , la congelación proporciona un correspondiente que asigna I a su latente. La latente puede entonces clasificarse. [26]

Clasificación de un solo ejemplo

Dado un conjunto de transformaciones obtenidas a partir de la solidificación de muchas imágenes de una determinada categoría, el clasificador se puede ampliar al caso en el que solo se permite un ejemplo de entrenamiento de una nueva categoría . La aplicación de todas las transformaciones de forma secuencial a crea un conjunto de entrenamiento artificial para . Este conjunto de datos artificiales se puede hacer más grande tomando prestadas transformaciones de muchas categorías ya conocidas. Una vez que se obtiene este conjunto de datos, , una instancia de prueba de , se puede clasificar como en el procedimiento de clasificación normal. El supuesto clave es que las categorías son lo suficientemente similares como para que las transformaciones de una se puedan aplicar a otra. [27]

Véase también

Citas

  1. ^ Li, Fergus y Perona 2002.
  2. ^ Thorpe, Fize y Marlot 1996.
  3. ^ Biederman 1987.
  4. ^ Li, Fergus y Perona 2006, Sección 1.
  5. ^ Li 2006, Sección 1.
  6. ^ Li, Fergus y Perona 2006, sección 2.
  7. ^ Finkel 2004.
  8. ^ Bart y Ullman 2005.
  9. ^ Murphy y otros 2004.
  10. ^ Hoiem, Efros y Herbert 2005.
  11. ^ Li 2006, Sección 2.
  12. ^ desde Burl y otros 1996.
  13. ^ Attias 1999.
  14. ^ Li y otros 2006.
  15. ^ Li, Fergus y Perona 2006, sección 3.1.
  16. ^ Weber, Welling y Perona 2000.
  17. ^ Fergus, Perona y Zisserman 2003.
  18. ^ Kadir y Brady 2001.
  19. ^ Li, Fergus y Perona 2006, sección 3.2.
  20. ^ ab Li, Fergus y Perona 2006, Sección 3.2.1.
  21. ^ Li, Fergus y Perona 2006, sección 3.4.3.
  22. ^ Li, Fergus y Perona 2006, sección 5.1.
  23. ^ Li, Fergus y Perona 2006, Secciones 4, 5.2.
  24. ^ Aprendizaje de pocos disparos (2/3): redes siamesas. YouTube . Archivado desde el original el 10 de diciembre de 2021.
  25. ^ Miller y otros.
  26. ^ Miller, Matsakis y Viola 2000, sección 4.
  27. ^ Miller, Matsakis y Viola 2000, sección 7.

Referencias