stringtranslate.com

Teoría M (marco de aprendizaje)

En el aprendizaje automático y la visión artificial , la teoría M es un marco de aprendizaje inspirado en el procesamiento de retroalimentación en la corriente ventral de la corteza visual y desarrollado originalmente para el reconocimiento y la clasificación de objetos en escenas visuales. La teoría M se aplicó más tarde a otras áreas, como el reconocimiento de voz . En ciertas tareas de reconocimiento de imágenes, los algoritmos basados ​​en una instancia específica de la teoría M, HMAX, lograron un rendimiento a nivel humano. [1]

El principio básico de la teoría M es extraer representaciones invariantes bajo diversas transformaciones de imágenes (traslación, escala, rotación 2D y 3D, entre otras). A diferencia de otros enfoques que utilizan representaciones invariantes, en la teoría M no están codificadas en los algoritmos, sino que se aprenden. La teoría M también comparte algunos principios con la detección comprimida . La teoría propone una arquitectura de aprendizaje jerárquica de múltiples capas, similar a la de la corteza visual.

Intuición

Representaciones invariantes

Un gran desafío en las tareas de reconocimiento visual es que el mismo objeto puede verse en una variedad de condiciones. Puede verse desde diferentes distancias, desde diferentes puntos de vista, bajo diferentes luces, parcialmente ocluido, etc. Además, para objetos de clases particulares, como rostros, pueden ser relevantes transformaciones específicas altamente complejas, como cambios en las expresiones faciales. Para aprender a reconocer imágenes, es muy beneficioso factorizar estas variaciones. Esto da como resultado un problema de clasificación mucho más simple y, en consecuencia, una gran reducción de la complejidad de la muestra del modelo.

Un experimento computacional simple ilustra esta idea. Se entrenaron dos instancias de un clasificador para distinguir imágenes de aviones de las de automóviles. Para entrenar y probar la primera instancia, se utilizaron imágenes con puntos de vista arbitrarios. Otra instancia recibió solo imágenes vistas desde un punto de vista particular, lo que fue equivalente a entrenar y probar el sistema en una representación invariante de las imágenes. Se puede ver que el segundo clasificador funcionó bastante bien incluso después de recibir un solo ejemplo de cada categoría, mientras que el rendimiento del primer clasificador estuvo cerca de una suposición aleatoria incluso después de ver 20 ejemplos.

Las representaciones invariantes se han incorporado en varias arquitecturas de aprendizaje, como los neocognitrones . Sin embargo, la mayoría de estas arquitecturas proporcionaban invariancia mediante características o propiedades diseñadas a medida de la propia arquitectura. Si bien es útil tener en cuenta algunos tipos de transformaciones, como las traslaciones, no resulta trivial tener en cuenta otros tipos de transformaciones, como las rotaciones 3D y los cambios en las expresiones faciales. La teoría M proporciona un marco de trabajo sobre cómo se pueden aprender dichas transformaciones. Además de una mayor flexibilidad, esta teoría también sugiere que el cerebro humano puede tener capacidades similares.

Plantillas

Otra idea central de la teoría M es cercana en espíritu a las ideas del campo de la detección comprimida . Una implicación del lema de Johnson-Lindenstrauss dice que un número particular de imágenes se puede incorporar en un espacio de características de baja dimensión con las mismas distancias entre imágenes mediante el uso de proyecciones aleatorias. Este resultado sugiere que el producto escalar entre la imagen observada y alguna otra imagen almacenada en la memoria, llamada plantilla, se puede utilizar como una característica que ayude a distinguir la imagen de otras imágenes. La plantilla no necesita estar relacionada de ninguna manera con la imagen, podría elegirse aleatoriamente.

Combinando plantillas y representaciones invariantes

Las dos ideas descritas en las secciones anteriores se pueden combinar para construir un marco de trabajo para el aprendizaje de representaciones invariantes. La observación clave es cómo se comporta el producto escalar entre una imagen y una plantilla cuando se transforma la imagen (mediante transformaciones como traslaciones, rotaciones, escalas, etc.). Si la transformación es miembro de un grupo unitario de transformaciones, entonces se cumple lo siguiente:

En otras palabras, el producto escalar de la imagen transformada y una plantilla es igual al producto escalar de la imagen original y la plantilla transformada inversamente. Por ejemplo, para una imagen rotada 90 grados, la plantilla transformada inversamente se rotaría −90 grados.

Consideremos el conjunto de productos escalares de una imagen para todas las transformaciones posibles de plantilla: . Si uno aplica una transformación a , el conjunto se convertiría en . Pero debido a la propiedad (1), esto es igual a . El conjunto es igual simplemente al conjunto de todos los elementos en . Para ver esto, note que cada está en debido a la propiedad de clausura de los grupos , y para cada en G existe su prototipo tal como (a saber, ). Por lo tanto, . ¡Se puede ver que el conjunto de productos escalares permanece igual a pesar de que se aplicó una transformación a la imagen! Este conjunto por sí mismo puede servir como una representación invariante (muy engorrosa) de una imagen. Se pueden derivar representaciones más prácticas de él.

En la sección introductoria se afirmó que la teoría M permite aprender representaciones invariantes, ya que las plantillas y sus versiones transformadas pueden aprenderse a partir de la experiencia visual, al exponer el sistema a secuencias de transformaciones de objetos. Es plausible que se produzcan experiencias visuales similares en los primeros períodos de la vida humana, por ejemplo, cuando los bebés juegan con juguetes en sus manos. Dado que las plantillas pueden no tener ninguna relación con las imágenes que el sistema intentará clasificar más adelante, los recuerdos de estas experiencias visuales pueden servir como base para reconocer muchos tipos diferentes de objetos en etapas posteriores de la vida. Sin embargo, como se muestra más adelante, para algunos tipos de transformaciones se necesitan plantillas específicas.

Aspectos teóricos

De las órbitas a las medidas de distribución

Para implementar las ideas descritas en las secciones anteriores, es necesario saber cómo derivar una representación invariante computacionalmente eficiente de una imagen. Dicha representación única para cada imagen puede caracterizarse tal como aparece mediante un conjunto de distribuciones de probabilidad unidimensionales (distribuciones empíricas de los productos escalares entre la imagen y un conjunto de plantillas almacenadas durante el aprendizaje no supervisado). Estas distribuciones de probabilidad, a su vez, pueden describirse mediante histogramas o un conjunto de momentos estadísticos de la misma, como se mostrará a continuación.

La órbita es un conjunto de imágenes generadas a partir de una única imagen bajo la acción del grupo .

En otras palabras, las imágenes de un objeto y de sus transformaciones corresponden a una órbita . Si dos órbitas tienen un punto en común son idénticas en todas partes, [2] es decir, una órbita es una representación invariante y única de una imagen. Por lo tanto, dos imágenes se denominan equivalentes cuando pertenecen a la misma órbita: si tales que . Por el contrario, dos órbitas son diferentes si ninguna de las imágenes de una órbita coincide con ninguna imagen de la otra. [3]

Surge una pregunta natural: ¿cómo se pueden comparar dos órbitas? Hay varios enfoques posibles. Uno de ellos utiliza el hecho de que intuitivamente dos órbitas empíricas son las mismas independientemente del orden de sus puntos. Así, se puede considerar una distribución de probabilidad inducida por la acción del grupo sobre las imágenes ( puede verse como una realización de una variable aleatoria).

Esta distribución de probabilidad puede caracterizarse casi de manera única por distribuciones de probabilidad unidimensionales inducidas por los resultados (unidimensionales) de proyecciones , donde son un conjunto de plantillas (imágenes elegidas al azar) (basadas en el teorema de Cramer-Wold [4] y la concentración de medidas).

Consideremos imágenes . Sea , donde es una constante universal. Entonces

con probabilidad , para todo .

Este resultado (informalmente) dice que se puede obtener una representación aproximadamente invariante y única de una imagen a partir de las estimaciones de distribuciones de probabilidad 1-D para . El número de proyecciones necesarias para discriminar órbitas, inducidas por imágenes, hasta una precisión (y con confianza ) es , donde es una constante universal.

Para clasificar una imagen se puede utilizar la siguiente “receta”:

  1. Memorizar un conjunto de imágenes/objetos llamados plantillas;
  2. Memorizar las transformaciones observadas para cada plantilla;
  3. Calcular productos escalares de sus transformaciones con imagen;
  4. Calcular el histograma de los valores resultantes, llamado firma de la imagen;
  5. Compare el histograma obtenido con las firmas almacenadas en la memoria.

Las estimaciones de estas funciones de densidad de probabilidad (PDF) unidimensionales se pueden escribir en términos de histogramas como , donde es un conjunto de funciones no lineales. Estas distribuciones de probabilidad unidimensionales se pueden caracterizar con histogramas de N-bin o un conjunto de momentos estadísticos. Por ejemplo, HMAX representa una arquitectura en la que la agrupación se realiza con una operación máxima.

Grupos de transformaciones no compactos

En la "receta" para la clasificación de imágenes, los grupos de transformaciones se aproximan con un número finito de transformaciones. Tal aproximación es posible solo cuando el grupo es compacto .

Grupos como todas las traslaciones y todos los escalamientos de la imagen no son compactos, ya que permiten transformaciones arbitrariamente grandes. Sin embargo, son localmente compactos . Para grupos localmente compactos, la invariancia se puede lograr dentro de un cierto rango de transformaciones. [2]

Supongamos que es un subconjunto de transformaciones de para las cuales los patrones transformados existen en la memoria. Para una imagen y una plantilla , supongamos que es igual a cero en todas partes excepto en algún subconjunto de . Este subconjunto se llama soporte de y se denota como . Se puede demostrar que si para una transformación , el conjunto de soporte también estará dentro de , entonces la firma de es invariante con respecto a . [2] Este teorema determina el rango de transformaciones para las cuales se garantiza que se mantiene la invariancia.

Se puede ver que cuanto menor es , mayor es el rango de transformaciones para las que se garantiza que se mantendrá la invariancia. Esto significa que para un grupo que solo es localmente compacto, no todas las plantillas funcionarían igualmente bien. Las plantillas preferibles son aquellas con un razonablemente pequeño para una imagen genérica. Esta propiedad se llama localización: las plantillas son sensibles solo a imágenes dentro de un rango pequeño de transformaciones. Aunque la minimización no es absolutamente necesaria para que el sistema funcione, mejora la aproximación de la invariancia. Requerir la localización simultáneamente para la traducción y la escala produce un tipo muy específico de plantillas: funciones de Gabor . [2]

La conveniencia de utilizar plantillas personalizadas para grupos no compactos entra en conflicto con el principio de aprendizaje de representaciones invariantes. Sin embargo, para ciertos tipos de transformaciones de imágenes que se dan con regularidad, las plantillas podrían ser el resultado de adaptaciones evolutivas. Los datos neurobiológicos sugieren que existe un ajuste similar al de Gabor en la primera capa de la corteza visual. [5] La optimalidad de las plantillas de Gabor para las traducciones y las escalas es una posible explicación de este fenómeno.

Transformaciones no grupales

Muchas transformaciones interesantes de imágenes no forman grupos. Por ejemplo, las transformaciones de imágenes asociadas con la rotación 3D del objeto 3D correspondiente no forman un grupo, porque es imposible definir una transformación inversa (dos objetos pueden parecer iguales desde un ángulo pero diferentes desde otro ángulo). Sin embargo, la invariancia aproximada aún se puede lograr para las transformaciones que no forman grupos, si se cumple la condición de localización para las plantillas y la transformación se puede linealizar localmente.

Como se dijo en la sección anterior, para el caso específico de traducciones y escalado, la condición de localización se puede satisfacer mediante el uso de plantillas de Gabor genéricas. Sin embargo, para la transformación de caso general (no grupal), la condición de localización se puede satisfacer solo para una clase específica de objetos. [2] Más específicamente, para satisfacer la condición, las plantillas deben ser similares a los objetos que uno quisiera reconocer. Por ejemplo, si uno quisiera construir un sistema para reconocer caras rotadas en 3D, necesita usar otras caras rotadas en 3D como plantillas. Esto puede explicar la existencia de tales módulos especializados en el cerebro como uno responsable del reconocimiento facial . [2] Incluso con plantillas personalizadas, una codificación similar al ruido de imágenes y plantillas es necesaria para la localización. Se puede lograr naturalmente si la transformación no grupal se procesa en cualquier capa que no sea la primera en la arquitectura de reconocimiento jerárquico.

Arquitecturas jerárquicas

La sección anterior sugiere una de las razones para las arquitecturas de reconocimiento de imágenes jerárquicas. Sin embargo, también tienen otros beneficios.

En primer lugar, las arquitecturas jerárquicas son las que mejor cumplen el objetivo de "analizar" una escena visual compleja con muchos objetos que constan de muchas partes, cuya posición relativa puede variar considerablemente. En este caso, los diferentes elementos del sistema deben reaccionar ante diferentes objetos y partes. En las arquitecturas jerárquicas, las representaciones de partes en diferentes niveles de la jerarquía de incrustación se pueden almacenar en diferentes capas de la jerarquía.

En segundo lugar, las arquitecturas jerárquicas que tienen representaciones invariables para partes de objetos pueden facilitar el aprendizaje de conceptos compositivos complejos. Esta facilitación puede darse mediante la reutilización de representaciones aprendidas de partes que se construyeron antes en el proceso de aprendizaje de otros conceptos. Como resultado, la complejidad de la muestra de aprendizaje de conceptos compositivos puede reducirse en gran medida.

Por último, las arquitecturas jerárquicas tienen una mejor tolerancia al desorden. El problema del desorden surge cuando el objeto de destino está delante de un fondo no uniforme, que funciona como un distractor para la tarea visual. La arquitectura jerárquica proporciona firmas para partes de los objetos de destino, que no incluyen partes del fondo y no se ven afectadas por las variaciones del fondo. [6]

En las arquitecturas jerárquicas, una capa no es necesariamente invariante a todas las transformaciones que maneja la jerarquía como un todo. Algunas transformaciones pueden pasar a través de esa capa a las capas superiores, como en el caso de las transformaciones no grupales descritas en la sección anterior. Para otras transformaciones, un elemento de la capa puede producir representaciones invariantes solo dentro de un pequeño rango de transformaciones. Por ejemplo, los elementos de las capas inferiores en la jerarquía tienen un campo visual pequeño y, por lo tanto, solo pueden manejar un pequeño rango de traducción. Para tales transformaciones, la capa debe proporcionar firmas covariantes en lugar de invariantes. La propiedad de covarianza se puede escribir como , donde es una capa, es la firma de la imagen en esa capa y representa "distribución de valores de la expresión para todos ".

Relación con la biología

La teoría M se basa en una teoría cuantitativa de la corriente ventral de la corteza visual. [7] [8] Comprender cómo funciona la corteza visual en el reconocimiento de objetos sigue siendo una tarea desafiante para la neurociencia. Los humanos y los primates pueden memorizar y reconocer objetos después de ver solo un par de ejemplos, a diferencia de cualquier sistema de visión artificial de última generación que generalmente requiere una gran cantidad de datos para reconocer objetos. Antes, el uso de la neurociencia visual en la visión por computadora se ha limitado a la visión temprana para derivar algoritmos estéreo (p. ej., [9] ) y para justificar el uso de filtros DoG (derivados de Gauss) y, más recientemente, de filtros Gabor. [10] [11] No se ha prestado atención real a las características biológicamente plausibles de mayor complejidad. Si bien la visión por computadora convencional siempre se ha inspirado y desafiado por la visión humana, parece que nunca ha avanzado más allá de las primeras etapas de procesamiento en las células simples en V1 y V2. Aunque algunos de los sistemas inspirados –en diversos grados– por la neurociencia se han probado en al menos algunas imágenes naturales, los modelos neurobiológicos de reconocimiento de objetos en la corteza aún no se han extendido para abordar bases de datos de imágenes del mundo real. [12]

El marco de aprendizaje de la teoría M emplea una hipótesis novedosa sobre la función computacional principal de la corriente ventral: la representación de nuevos objetos/imágenes en términos de una firma, que es invariable a las transformaciones aprendidas durante la experiencia visual. Esto permite el reconocimiento a partir de muy pocos ejemplos etiquetados (como máximo, solo uno).

La neurociencia sugiere que las funciones naturales que una neurona debe calcular son un producto escalar de alta dimensión entre un "parche de imagen" y otro parche de imagen (llamado plantilla) que se almacena en términos de pesos sinápticos (sinapsis por neurona). El modelo computacional estándar de una neurona se basa en un producto escalar y un umbral. Otra característica importante de la corteza visual es que consta de células simples y complejas. Esta idea fue propuesta originalmente por Hubel y Wiesel. [9] La teoría M emplea esta idea. Las células simples calculan productos escalares de una imagen y transformaciones de plantillas para ( es un número de células simples). Las células complejas son responsables de agrupar y calcular histogramas empíricos o momentos estadísticos de ellos. La siguiente fórmula para construir histogramas puede ser calculada por neuronas:

donde es una versión suave de la función escalonada, es el ancho de un contenedor de histograma y es el número del contenedor.

Aplicaciones

Aplicaciones a la visión por computadora

En [ aclaración necesaria ] [13] [14] los autores aplicaron la teoría M al reconocimiento de rostros sin restricciones en fotografías naturales. A diferencia del método DAR (detección, alineación y reconocimiento), que maneja el desorden detectando objetos y recortándolos de cerca a su alrededor para que quede muy poco fondo, este enfoque logra la detección y alineación implícitamente almacenando transformaciones de imágenes de entrenamiento (plantillas) en lugar de detectar y alinear o recortar rostros explícitamente en el momento de la prueba. Este sistema está construido de acuerdo con los principios de una teoría reciente de invariancia en redes jerárquicas y puede evadir el problema del desorden generalmente problemático para los sistemas de avance. El sistema de extremo a extremo resultante logra una mejora drástica en el estado del arte en esta tarea de extremo a extremo, alcanzando el mismo nivel de rendimiento que los mejores sistemas que operan en imágenes alineadas y recortadas de cerca (sin datos de entrenamiento externos). También funciona bien en dos conjuntos de datos más nuevos, similares a LFW, pero más difíciles: la versión significativamente alterada (desalineada) de LFW y SUFR-W (por ejemplo, la precisión del modelo en la categoría LFW "sin alinear y sin datos externos utilizados" es 87,55 ± 1,41 % en comparación con el APEM de última generación (emparejamiento elástico probabilístico adaptativo): 81,70 ± 1,78 %).

La teoría también se aplicó a una variedad de tareas de reconocimiento: desde el reconocimiento de objetos únicos invariantes en desorden hasta problemas de categorización multiclase en conjuntos de datos disponibles públicamente (CalTech5, CalTech101, MIT-CBCL) y tareas complejas de comprensión de escenas (callejeras) que requieren el reconocimiento de objetos basados ​​tanto en formas como en texturas (en el conjunto de datos StreetScenes). [12] El enfoque funciona muy bien: tiene la capacidad de aprender a partir de solo unos pocos ejemplos de entrenamiento y se demostró que supera a varios modelos de constelación de sistemas de última generación más complejos, el sistema de detección de rostros basado en SVM jerárquico. Un elemento clave en el enfoque es un nuevo conjunto de detectores de características tolerantes a la escala y la posición, que son biológicamente plausibles y coinciden cuantitativamente con las propiedades de ajuste de las células a lo largo de la corriente ventral de la corteza visual. Estas características son adaptativas al conjunto de entrenamiento, aunque también demostramos que un conjunto de características universal, aprendido a partir de un conjunto de imágenes naturales no relacionadas con ninguna tarea de categorización, también logra un buen rendimiento.

Aplicaciones del reconocimiento de voz

Esta teoría también se puede extender al dominio del reconocimiento de voz. Como ejemplo, en [15] se propuso una extensión de una teoría para el aprendizaje no supervisado de representaciones visuales invariantes al dominio auditivo y se evaluó empíricamente su validez para la clasificación de sonidos del habla sonora. Los autores demostraron empíricamente que una representación de una sola capa, a nivel de fonía, extraída de las características del habla base, mejora la precisión de la clasificación de segmentos y disminuye la cantidad de ejemplos de entrenamiento en comparación con las características espectrales y cepstrales estándar para una tarea de clasificación acústica en el conjunto de datos TIMIT. [16]

Referencias

  1. ^ Serre T., Oliva A., Poggio T. (2007) Una arquitectura de propagación hacia adelante permite una categorización rápida. PNAS , vol. 104, núm. 15, págs. 6424–6429
  2. ^ abcdef F Anselmi, JZ Leibo, L Rosasco, J Mutch, A Tacchetti, T Poggio (2014) Aprendizaje no supervisado de representaciones invariantes en arquitecturas jerárquicas arXiv preprint arXiv:1311.4158
  3. ^ H. Schulz-Mirbach. Construcción de características invariantes mediante técnicas de promediado. En Pattern Recognition, 1994. Vol. 2 – Conferencia B: Computer Vision amp; Image Processing., Actas de la 12.ª Conferencia Internacional de la IAPR, volumen 2, páginas 387 –390 vol.2, 1994.
  4. ^ H. Cramer y H. Wold. Algunos teoremas sobre funciones de distribución. J. London Math. Soc., 4:290–294, 1936.
  5. ^ F. Anselmi, JZ Leibo, L. Rosasco, J. Mutch, A. Tacchetti, T. Poggio (2013) Materiales mágicos: una teoría de arquitecturas jerárquicas profundas para el aprendizaje de representaciones sensoriales. Artículo del CBCL, Instituto Tecnológico de Massachusetts, Cambridge, MA
  6. ^ Liao Q., Leibo J., Mroueh Y., Poggio T. (2014) ¿Puede una jerarquía biológicamente plausible reemplazar eficazmente los procesos de detección, alineación y reconocimiento de rostros? CBMM Memo No. 003, Instituto Tecnológico de Massachusetts, Cambridge, MA
  7. ^ M. Riesenhuber y T. Poggio Modelos jerárquicos de reconocimiento de objetos en la corteza (1999) Nature Neuroscience, vol. 2, no. 11, págs. 1019-1025, 1999.
  8. ^ T. Serre, M. Kouh, C. Cadieu, U. Knoblich, G. Kreiman y T. Poggio (2005) Una teoría del reconocimiento de objetos: cálculos y circuitos en la ruta de avance de la corriente ventral en la corteza visual de los primates AI Memo 2005-036/CBCL Memo 259, Instituto Tecnológico de Massachusetts, Cambridge.
  9. ^ ab DH Hubel y TN Wiesel (1962) Campos receptivos, interacción binocular y arquitectura funcional en la corteza visual del gato The Journal of Physiology 160.
  10. ^ D. Gabor (1946) Teoría de la comunicación J. IEE, vol. 93, págs. 429–459.
  11. ^ JP Jones y LA Palmer (1987) Una evaluación del modelo de filtro de Gabor bidimensional de campos receptivos simples en la corteza estriada del gato J. Neurophysiol., vol. 58, págs. 1233–1258.
  12. ^ ab Thomas Serre, Lior Wolf, Stanley Bileschi, Maximilian Riesenhuber y Tomaso Poggio (2007) Reconocimiento robusto de objetos con mecanismos tipo corteza IEEE Transactions on Pattern Analysis and Machine Intelligence, VOL. 29, NO. 3
  13. ^ Qianli Liao, Joel Z Leibo, Youssef Mroueh, Tomaso Poggio (2014) ¿Puede una jerarquía biológicamente plausible reemplazar eficazmente los procesos de detección, alineación y reconocimiento de rostros? Memorándum n.° 003 del CBMM
  14. ^ Qianli Liao, Joel Z Leibo y Tomaso Poggio (2014) Aprendizaje de representaciones invariantes y aplicaciones para la verificación de rostros NIPS 2014
  15. ^ Georgios Evangelopoulos, Stephen Voinea, Chiyuan Zhang, Lorenzo Rosasco, Tomaso Poggio (2014) Aprendiendo una representación del habla invariante CBMM Memo No. 022
  16. ^ "Corpus continuo de habla acústico-fonética TIMIT - Consorcio de datos lingüísticos".