stringtranslate.com

Estabilidad (teoría del aprendizaje)

La estabilidad , también conocida como estabilidad algorítmica , es una noción en la teoría del aprendizaje computacional de cómo la salida de un algoritmo de aprendizaje automático cambia con pequeñas perturbaciones en sus entradas. Un algoritmo de aprendizaje estable es aquel cuya predicción no cambia mucho cuando los datos de entrenamiento se modifican ligeramente. Por ejemplo, considere un algoritmo de aprendizaje automático que se está entrenando para reconocer letras del alfabeto escritas a mano, utilizando 1000 ejemplos de letras escritas a mano y sus etiquetas ("A" a "Z") como conjunto de entrenamiento. Una forma de modificar este conjunto de capacitación es omitir un ejemplo, de modo que solo estén disponibles 999 ejemplos de cartas escritas a mano y sus etiquetas. Un algoritmo de aprendizaje estable produciría un clasificador similar con conjuntos de entrenamiento de 1000 elementos y 999 elementos.

La estabilidad se puede estudiar para muchos tipos de problemas de aprendizaje, desde el aprendizaje de idiomas hasta problemas inversos en física e ingeniería, ya que es una propiedad del proceso de aprendizaje más que del tipo de información que se aprende. El estudio de la estabilidad ganó importancia en la teoría del aprendizaje computacional en la década de 2000, cuando se demostró que tenía una conexión con la generalización . [1] Se demostró que para grandes clases de algoritmos de aprendizaje, en particular algoritmos empíricos de minimización de riesgos , ciertos tipos de estabilidad garantizan una buena generalización.

Historia

Un objetivo central en el diseño de un sistema de aprendizaje automático es garantizar que el algoritmo de aprendizaje se generalice o funcione con precisión en nuevos ejemplos después de haber sido entrenado en un número finito de ellos. En la década de 1990, se alcanzaron hitos en la obtención de límites de generalización para algoritmos de aprendizaje supervisado . La técnica históricamente utilizada para probar la generalización fue mostrar que un algoritmo era consistente , utilizando las propiedades de convergencia uniforme de las cantidades empíricas con sus medias. Esta técnica se utilizó para obtener límites de generalización para la gran clase de algoritmos empíricos de minimización de riesgos (ERM). Un algoritmo ERM es aquel que selecciona una solución de un espacio de hipótesis de tal manera que minimice el error empírico en un conjunto de entrenamiento .

Un resultado general, demostrado por Vladimir Vapnik para algoritmos de clasificación binaria de ERM, es que para cualquier función objetivo y distribución de entrada, cualquier espacio de hipótesis con dimensión VC y ejemplos de entrenamiento, el algoritmo es consistente y producirá un error de entrenamiento que es de la mayoría (más factores logarítmicos) del error verdadero. Posteriormente, el resultado se amplió a algoritmos casi ERM con clases de funciones que no tienen minimizadores únicos.

El trabajo de Vapnik, utilizando lo que se conoció como teoría VC , estableció una relación entre la generalización de un algoritmo de aprendizaje y las propiedades del espacio de hipótesis de las funciones que se aprenden. Sin embargo, estos resultados no pudieron aplicarse a algoritmos con espacios de hipótesis de dimensión VC ilimitada. Dicho de otra manera, estos resultados no se podían aplicar cuando la información que se estaba aprendiendo tenía una complejidad demasiado grande para medirla. Algunos de los algoritmos de aprendizaje automático más simples (por ejemplo, para la regresión) tienen espacios de hipótesis con una dimensión VC ilimitada. Otro ejemplo son los algoritmos de aprendizaje de idiomas que pueden producir oraciones de longitud arbitraria.

El análisis de estabilidad se desarrolló en la década de 2000 para la teoría del aprendizaje computacional y es un método alternativo para obtener límites de generalización. La estabilidad de un algoritmo es una propiedad del proceso de aprendizaje, más que una propiedad directa del espacio de hipótesis , y puede evaluarse en algoritmos que tienen espacios de hipótesis con una dimensión VC ilimitada o indefinida, como el vecino más cercano. Un algoritmo de aprendizaje estable es aquel en el que la función aprendida no cambia mucho cuando el conjunto de entrenamiento se modifica ligeramente, por ejemplo, omitiendo un ejemplo. Se utiliza una medida del error de dejar uno fuera en un algoritmo de validación cruzada dejar uno fuera (CVloo) para evaluar la estabilidad de un algoritmo de aprendizaje con respecto a la función de pérdida. Como tal, el análisis de estabilidad es la aplicación del análisis de sensibilidad al aprendizaje automático.

Resumen de resultados clásicos.

Definiciones preliminares

Definimos varios términos relacionados con los conjuntos de entrenamiento de algoritmos de aprendizaje, para luego poder definir la estabilidad de múltiples maneras y presentar teoremas del campo.

Un algoritmo de aprendizaje automático, también conocido como mapa de aprendizaje , asigna un conjunto de datos de entrenamiento, que es un conjunto de ejemplos etiquetados , a una función desde hasta , donde y están en el mismo espacio de los ejemplos de entrenamiento. Las funciones se seleccionan de un espacio de hipótesis de funciones llamado .

El conjunto de entrenamiento del que aprende un algoritmo se define como

y es de tamaño en

extraído iid de una distribución desconocida D.

Por lo tanto, el mapa de aprendizaje se define como un mapeo desde adentro , mapeando un conjunto de entrenamiento en una función desde hasta . Aquí, consideramos sólo algoritmos deterministas donde es simétrico con respecto a , es decir, no depende del orden de los elementos en el conjunto de entrenamiento. Además, suponemos que todas las funciones son mensurables y todos los conjuntos son contables.

La pérdida de una hipótesis con respecto a un ejemplo se define entonces como .

El error empírico de es .

El verdadero error es

Dado un conjunto de entrenamiento S de tamaño m, construiremos, para todo i = 1....,m, conjuntos de entrenamiento modificados de la siguiente manera:

Definiciones de estabilidad

Estabilidad de hipótesis

Un algoritmo tiene estabilidad de hipótesis β con respecto a la función de pérdida V si se cumple lo siguiente:

Estabilidad de hipótesis puntual

Un algoritmo tiene estabilidad de hipótesis puntual β con respecto a la función de pérdida V si se cumple lo siguiente:

Estabilidad de errores

Un algoritmo tiene estabilidad de error β con respecto a la función de pérdida V si se cumple lo siguiente:

Estabilidad uniforme

Un algoritmo tiene estabilidad uniforme β con respecto a la función de pérdida V si se cumple lo siguiente:

Una versión probabilística de estabilidad uniforme β es:

Se dice que un algoritmo es estable cuando el valor de disminuye a medida que .

Estabilidad de validación cruzada de dejar uno fuera (CVloo)

Un algoritmo tiene estabilidad CVloo β con respecto a la función de pérdida V si se cumple lo siguiente:

La definición de estabilidad (CVloo) es equivalente a la estabilidad de hipótesis puntual vista anteriormente.

Error esperado de dejar uno fuera ( ) Estabilidad mi yo oh oh mi r r {\displaystyle Eloo_{err}}

Un algoritmo tiene estabilidad si para cada n existe a y a tal que:

, con y yendo a cero para

Teoremas clásicos

De Bousquet y Elisseeff (02) :

Para algoritmos de aprendizaje simétrico con pérdida limitada, si el algoritmo tiene estabilidad uniforme con la definición probabilística anterior, entonces el algoritmo se generaliza.

La estabilidad uniforme es una condición importante que no todos los algoritmos cumplen pero, sorprendentemente, sí la cumplen la gran e importante clase de algoritmos de regularización. El límite de generalización se da en el artículo.

De Mukherjee et al. (06) :

Este es un resultado importante para los fundamentos de la teoría del aprendizaje, porque muestra que dos propiedades de un algoritmo que antes no estaban relacionadas, la estabilidad y la consistencia, son equivalentes para ERM (y ciertas funciones de pérdida). El límite de generalización se da en el artículo.

Algoritmos que son estables

Esta es una lista de algoritmos que han demostrado ser estables y el artículo donde se proporcionan los límites de generalización asociados.

Referencias

  1. ^ Bousquet, Olivier; Elisseeff, André (2002). "Estabilidad y Generalización". Revista de investigación sobre aprendizaje automático . 2 (marzo): 499–526. ISSN  1533-7928.
  2. ^ ab L. Devroye y Wagner, Límites de rendimiento sin distribución para reglas de funciones potenciales, IEEE Trans. inf. Teoría 25(5) (1979) 601–604.
  3. ^ M. Kearns y D. Ron , Estabilidad algorítmica y límites de verificación de cordura para validación cruzada de dejar uno fuera, Neural Comput. 11(6) (1999) 1427–1453.
  4. ^ abcde O. Bousquet y A. Elisseeff. Estabilidad y generalización. J. Mach. Aprender. Res., 2:499–526, 2002.
  5. ^ S. Kutin y P. Niyogi, Error de generalización y estabilidad algorítmica en casi todas partes, Informe técnico TR-2002-03, Universidad de Chicago (2002).
  6. ^ S. Mukherjee, P. Niyogi, T. Poggio y RM Rifkin. Teoría del aprendizaje: la estabilidad es suficiente para la generalización y necesaria y suficiente para la coherencia de la minimización empírica del riesgo. Adv. Computadora. Matemáticas, 25(1-3):161–193, 2006.
  7. ^ Shalev Shwartz, S., Shamir, O., Srebro, N., Sridharan, K., Capacidad de aprendizaje, estabilidad y convergencia uniforme, Journal of Machine Learning Research, 11 (octubre): 2635-2670, 2010.
  8. ^ Moritz Hardt, Benjamin Recht, Yoram Singer, Entrene más rápido, generalice mejor: estabilidad del descenso de gradiente estocástico, ICML 2016.
  9. ^ Elisseeff, A. Un estudio sobre la estabilidad algorítmica y su relación con las actuaciones de generalización. Reporte técnico. (2000)
  10. ^ ab Rifkin, R. Todo lo viejo es nuevo otra vez: una nueva mirada a los enfoques históricos del aprendizaje automático. Doctor. Tesis, MIT, 2002
  11. ^ Rosasco, L. y Poggio, T. Estabilidad de la regularización de Tikhonov, 2009

Otras lecturas